Дослідження в галузі штучного інтелекту

Machine unlearning: Google Research підтвердила аудит-тест, але поки не для LLMs

Google Research представила на AISTATS 2026 тест для аудиту machine unlearning, який може суттєво здешевити перевірку видалення даних із навченої моделі. Однак підтвердження поки обмежуються synthetic benchmarks і physics datasets, без перевірки на LLMs, де питання privacy, traceability та governance стоять найгостріше.

STStephane Nachez · · ·3 min
Machine unlearning: Google Research підтвердила аудит-тест, але поки не для LLMs
Sommaire

Google Research представила на AISTATS 2026 статистичний тест для аудиту machine unlearning — тобто цільового видалення даних із уже навченої моделі. Framework Regularized f-Divergence Kernel Tests, авторства Mónica Ribero, Antonin Schrab та Arthur Gretton, обіцяє суттєво знизити експериментальні витрати для частини аудитів: на механізмі SVT3 для differential privacy він виявляє порушення за кілька тисяч вибірок, тоді як DP-Auditorium міг вимагати мільйони. Водночас його сфера застосування залишається обмеженою: опубліковані валідації стосуються синтетичних benchmark-ів і наборів даних з high-energy physics, але не великих language models, хоча саме вони перебувають у центрі регуляторної напруги навколо видалення даних, простежуваності та governance даних.

Що саме виправляє тест і що він залишає відкритим

Інструмент усуває відомий недолік стандартного two-sample test (MMD). Дві моделі, повторно навчені з нуля на тих самих даних, але з різними batch sizes, можуть давати різні розподіли, що спричиняє хибне спрацьовування як ознаку провалу unlearning. Новий тест обходить цю пастку завдяки three-sample test і автоматичному вибору f-divergence — міри відстані між розподілами — яка найкраще відповідає кожному типу drift.

Головний аргумент — різниця у вартості експериментів. На механізмі SVT3 (Sparse Vector Technique) у differential privacy framework виявляє порушення за кілька тисяч вибірок проти мільйонів у DP-Auditorium — еталонному інструменті, опублікованому Google Research у 2024 році (arXiv:2307.05608) — за порівнянного рівня виявлення. Важлива деталь: цей виграш доведено саме на SVT3, а не на всіх механізмах differential privacy, і автори прямо зазначають, що жодна окрема divergence не домінує системно над іншими. Три методи — Selective Synaptic Dampening (SSD), pruning і finetuning — були визнані нездатними ефективно стерти цільові дані в умовах спрощених експериментів статті; лише метод random label пройшов three-sample test, і автори це визнають.

Поза computer vision питання, однак, залишається відкритим. Робота arXiv:2510.16629, опублікована в жовтні 2025 року, показує, що модель ніколи не може повністю забути дані, якщо змінювати лише її поточні параметри: залишається залишковий слід нібито видаленої інформації — структурна перешкода, яку тест Ribero et al. вимірює, але не усуває. Feng et al. (CMU, UK AI Security Institute, Oxford) у preprint від травня 2025 року вважають поточні оцінки unlearning для великих language models непереконливими, а Chen et al. (LMU Munich, Oxford, Siemens) одночасно опублікували окремий framework для аудиту LLMs — framework, який у статті AISTATS 2026 не порівнюється.

Обов’язок досягти результату без юридично придатного методу

GDPR через статтю 17 про право на видалення дає людині можливість вимагати видалення своїх даних: якщо застосувати це до AI-моделі, йдеться про необхідність довести, що відповідні дані більше не впливають на outputs. GDPR встановлює обов’язок видалення, коли виконано умови статті 17; однак у випадку AI-моделей цей обов’язок натрапляє на технічну сіру зону: як довести, що відповідні дані більше не впливають на поведінку моделі?

На європейському рівні найновіша рамка цього вакууму не заповнює. Code of Practice GPAI, фінальну версію якого European Commission оприлюднила в липні 2025 року, є добровільним інструментом, що охоплює transparency, copyright і security та допомагає провайдерам демонструвати відповідність статті 53 AI Act, яка вимагає публічного summary контенту, використаного для навчання (article 53(1)(d), чинний із 2 серпня 2025 року). Документ — у версії, з якою ознайомилися автори, — не пропонує жодного методу перевірки фактичного видалення даних у вже розгорнутій моделі.

Розрив закривається інструментами, а не текстами. Саме цю прогалину й намагаються закрити Ribero, Schrab та Gretton, пропонуючи статистично обґрунтований спосіб підтвердити успішне видалення. Але ключовий етап ще попереду: доки експериментальна валідація не вийде за межі synthetic benchmarks і physics models та не перейде до великих language models, де зосереджені запити на видалення, ланцюг доказів, необхідний data protection officer, залишається неповним.

ST
Stephane Nachez
subscriber

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.