Machine unlearning: Google Research підтвердила аудит-тест, але поки не для LLMs

Google Research представила на AISTATS 2026 статистичний тест для аудиту machine unlearning — тобто цільового видалення даних із уже навченої моделі. Framework Regularized f-Divergence Kernel Tests, авторства Mónica Ribero, Antonin Schrab та Arthur Gretton, обіцяє суттєво знизити експериментальні витрати для частини аудитів: на механізмі SVT3 для differential privacy він виявляє порушення за кілька тисяч вибірок, тоді як DP-Auditorium міг вимагати мільйони. Водночас його сфера застосування залишається обмеженою: опубліковані валідації стосуються синтетичних benchmark-ів і наборів даних з high-energy physics, але не великих language models, хоча саме вони перебувають у центрі регуляторної напруги навколо видалення даних, простежуваності та governance даних.

Що саме виправляє тест і що він залишає відкритим

Інструмент усуває відомий недолік стандартного two-sample test (MMD). Дві моделі, повторно навчені з нуля на тих самих даних, але з різними batch sizes, можуть давати різні розподіли, що спричиняє хибне спрацьовування як ознаку провалу unlearning. Новий тест обходить цю пастку завдяки three-sample test і автоматичному вибору f-divergence — міри відстані між розподілами — яка найкраще відповідає кожному типу drift.

Головний аргумент — різниця у вартості експериментів. На механізмі SVT3 (Sparse Vector Technique) у differential privacy framework виявляє порушення за кілька тисяч вибірок проти мільйонів у DP-Auditorium — еталонному інструменті, опублікованому Google Research у 2024 році (arXiv:2307.05608) — за порівнянного рівня виявлення. Важлива деталь: цей виграш доведено саме на SVT3, а не на всіх механізмах differential privacy, і автори прямо зазначають, що жодна окрема divergence не домінує системно над іншими. Три методи — Selective Synaptic Dampening (SSD), pruning і finetuning — були визнані нездатними ефективно стерти цільові дані в умовах спрощених експериментів статті; лише метод random label пройшов three-sample test, і автори це визнають.

Поза computer vision питання, однак, залишається відкритим. Робота arXiv:2510.16629, опублікована в жовтні 2025 року, показує, що модель ніколи не може повністю забути дані, якщо змінювати лише її поточні параметри: залишається залишковий слід нібито видаленої інформації — структурна перешкода, яку тест Ribero et al. вимірює, але не усуває. Feng et al. (CMU, UK AI Security Institute, Oxford) у preprint від травня 2025 року вважають поточні оцінки unlearning для великих language models непереконливими, а Chen et al. (LMU Munich, Oxford, Siemens) одночасно опублікували окремий framework для аудиту LLMs — framework, який у статті AISTATS 2026 не порівнюється.

Обов’язок досягти результату без юридично придатного методу

GDPR через статтю 17 про право на видалення дає людині можливість вимагати видалення своїх даних: якщо застосувати це до AI-моделі, йдеться про необхідність довести, що відповідні дані більше не впливають на outputs. GDPR встановлює обов’язок видалення, коли виконано умови статті 17; однак у випадку AI-моделей цей обов’язок натрапляє на технічну сіру зону: як довести, що відповідні дані більше не впливають на поведінку моделі?

На європейському рівні найновіша рамка цього вакууму не заповнює. Code of Practice GPAI, фінальну версію якого European Commission оприлюднила в липні 2025 року, є добровільним інструментом, що охоплює transparency, copyright і security та допомагає провайдерам демонструвати відповідність статті 53 AI Act, яка вимагає публічного summary контенту, використаного для навчання (article 53(1)(d), чинний із 2 серпня 2025 року). Документ — у версії, з якою ознайомилися автори, — не пропонує жодного методу перевірки фактичного видалення даних у вже розгорнутій моделі.

Розрив закривається інструментами, а не текстами. Саме цю прогалину й намагаються закрити Ribero, Schrab та Gretton, пропонуючи статистично обґрунтований спосіб підтвердити успішне видалення. Але ключовий етап ще попереду: доки експериментальна валідація не вийде за межі synthetic benchmarks і physics models та не перейде до великих language models, де зосереджені запити на видалення, ланцюг доказів, необхідний data protection officer, залишається неповним.

Stephane Nachez

Редакція ActuIA — новини, дані й аналітика про штучний інтелект для керівників.

Machine unlearning: Google Research підтвердила аудит-тест, але поки не для LLMs

Що саме виправляє тест і що він залишає відкритим

Обов’язок досягти результату без юридично придатного методу

Допоможений GPT-5, а потім залишений сам на сам: рандомізований експеримент вимірює ціну навчання з AI-асистентом

Solaria-3: Gladia лідирує в production-аудіо, за власними вимірюваннями

Starbucks вилучає інструмент комп'ютерного зору NomadGo через дев'ять місяців у 11 000 магазинах