Recherche en intelligence artificielle

Machine unlearning: Google Research potwierdza test audytowy, ale jeszcze nie dla LLM-ów

Google Research zaprezentowało na AISTATS 2026 test audytowy dla machine unlearning, który znacząco obniża koszt wykrywania naruszeń w wybranych scenariuszach, ale jego walidacja nie obejmuje jeszcze LLM-ów.

STStephane Nachez · · ·3 min
Machine unlearning: Google Research potwierdza test audytowy, ale jeszcze nie dla LLM-ów
Sommaire

Google Research zaprezentowało na AISTATS 2026 test statystyczny służący do audytu machine unlearning, czyli ukierunkowanego usuwania danych z już wytrenowanego modelu. Framework Regularized f-Divergence Kernel Tests, autorstwa Móniki Ribero, Antonina Schraba i Arthura Grettona, obiecuje znacząco obniżyć koszt eksperymentalny części audytów: w przypadku mechanizmu SVT3 z zakresu differential privacy wykrywa naruszenia przy użyciu kilku tysięcy próbek, podczas gdy DP-Auditorium mogło wymagać milionów. Zakres pozostaje jednak ograniczony: opublikowane walidacje dotyczą syntetycznych benchmarków oraz zbiorów z fizyki wysokich energii, a nie dużych modeli językowych, mimo że to właśnie one znajdują się w centrum napięć regulacyjnych wokół usuwania danych, śledzenia pochodzenia i governance danych.

Co test naprawia, a co pozostawia otwarte

Narzędzie adresuje dobrze znaną wadę standardowego testu dwóch próbek (MMD). Dwa modele trenowane od zera na tych samych danych, ale z różnymi rozmiarami batcha, mogą generować odmienne rozkłady, co wywołuje fałszywy alarm niepowodzenia unlearningu. Nowy test omija tę pułapkę, stosując test trzech próbek oraz automatyczny dobór f-divergence — miary odległości między rozkładami — najlepiej dopasowanej do danego typu driftu.

Najmocniejszym argumentem jest tutaj kontrast kosztów eksperymentalnych. W przypadku mechanizmu SVT3 (Sparse Vector Technique) z differential privacy framework wykrywa naruszenia przy kilku tysiącach próbek, wobec milionów w DP-Auditorium — narzędziu referencyjnym opublikowanym przez Google Research w 2024 roku (arXiv:2307.05608) — przy porównywalnym poziomie detekcji. Istotny jest jednak szczegół: zysk został udokumentowany dla SVT3, a nie dla całego spektrum mechanizmów differential privacy, a autorzy podkreślają, że żadna pojedyncza divergence nie dominuje systematycznie nad pozostałymi. Trzy metody — Selective Synaptic Dampening (SSD), pruning i finetuning — uznano w uproszczonych warunkach eksperymentalnych pracy za niezdolne do skutecznego usunięcia danych docelowych; jedynie technika random label przeszła test trzech próbek, co autorzy otwarcie przyznają.

Szerszy zakres poza wizją pozostaje natomiast do udowodnienia. Prace arXiv:2510.16629 opublikowane w październiku 2025 roku pokazują, że model nie może nigdy całkowicie zapomnieć danych wyłącznie przez dostrajanie bieżących parametrów: pozostaje resztkowy ślad rzekomo usuniętych informacji — strukturalna przeszkoda, którą test Ribero i in. mierzy, ale nie usuwa. Feng i in. (CMU, UK AI Security Institute, Oxford) w preprincie z maja 2025 roku uznają obecne ewaluacje unlearningu dla dużych modeli językowych za niejednoznaczne, a Chen i in. (LMU Munich, Oxford, Siemens) opublikowali równolegle framework audytowy specyficzny dla LLM-ów — framework nieporównywany w artykule AISTATS 2026.

Obowiązek rezultatu bez egzekwowalnej metody

RODO otwiera, poprzez artykuł 17 dotyczący prawa do usunięcia danych, możliwość żądania przez osobę fizyczną skasowania jej danych: w odniesieniu do modelu AI oznacza to konieczność wykazania, że dane objęte żądaniem przestały wpływać na outputs. RODO nakłada obowiązek usunięcia danych, gdy spełnione są warunki z artykułu 17; w przypadku modeli AI obowiązek ten napotyka jednak techniczną szarą strefę: jak wykazać, że dane te nie wpływają już na zachowanie modelu?

Na poziomie europejskim najnowsze ramy nie wypełniają tej luki. Code of Practice GPAI, którego finalną wersję Komisja Europejska opublikowała w lipcu 2025 roku, jest dobrowolnym narzędziem obejmującym transparentność, prawa autorskie i bezpieczeństwo, wspierającym dostawców w wykazywaniu zgodności z artykułem 53 AI Act, który wymaga publicznego streszczenia treści użytych do treningu (art. 53(1)(d), obowiązujący od 2 sierpnia 2025 r.). Dokument — w analizowanej wersji — nie przewiduje żadnej metody weryfikacji skutecznego usunięcia danych z już wdrożonego modelu.

Luka zamyka się więc przez narzędzia, a nie przez przepisy. To właśnie ten brak próbuje zapełnić test Ribero, Schrab i Grettona, proponując statystycznie obronną miarę skutecznego usunięcia danych. Pozostaje jednak próba, której jeszcze nie zaliczono: dopóki walidacja eksperymentalna nie wyjdzie poza syntetyczne benchmarki i modele fizyczne, by objąć duże modele językowe, gdzie koncentrują się żądania usunięcia danych, łańcuch dowodowy oczekiwany przez inspektora ochrony danych pozostaje niepełny.

ST
Stephane Nachez
subscriber

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.