Machine unlearning: Google Research validează un test de audit, dar încă nu pentru LLM-uri

Google Research a prezentat la AISTATS 2026 un test statistic destinat auditării machine unlearning, adică ștergerea țintită a datelor dintr-un model deja antrenat. Framework-ul Regularized f-Divergence Kernel Tests, semnat de Mónica Ribero, Antonin Schrab și Arthur Gretton, promite să reducă semnificativ costul experimental al anumitor audituri: pe mecanismul SVT3 de confidențialitate diferențială, detectează încălcări cu câteva mii de eșantioane, în timp ce DP-Auditorium putea necesita milioane. Totuși, aria sa de aplicare rămâne limitată: validările publicate vizează benchmark-uri sintetice și seturi de date din fizica energiilor înalte, nu modelele mari de limbaj, deși tocmai acestea concentrează tensiunile de reglementare privind ștergerea, trasabilitatea și guvernanța datelor.

Ce corectează testul și ce lasă deschis

Instrumentul vizează un defect cunoscut al testului standard cu două eșantioane (MMD). Două modele reantrenate de la zero pe aceleași date, dar cu dimensiuni diferite ale batch-ului, produc distribuții distincte, ceea ce declanșează o alertă falsă de eșec al unlearning-ului. Noul test evită această capcană printr-un test relativ la trei eșantioane și prin selecția automată a f-divergence - o măsură a distanței dintre distribuții - cea mai potrivită pentru fiecare tip de derivă.

Contrastul de cost experimental este argumentul principal. Pe mecanismul SVT3 (Sparse Vector Technique) în confidențialitate diferențială, framework-ul detectează încălcări cu câteva mii de eșantioane, față de milioane pentru DP-Auditorium - instrumentul de referință publicat de Google Research în 2024 (arXiv:2307.05608) - pentru o rată de detecție comparabilă. Detaliul contează: câștigul este documentat pe SVT3, nu pe ansamblul mecanismelor de confidențialitate diferențială, iar autorii precizează că nicio singură divergență nu domină sistematic celelalte. Trei metode - Selective Synaptic Dampening (SSD), pruning și finetuning - au fost considerate incapabile să șteargă efectiv datele țintite în condițiile experimentale simplificate din articol; doar tehnica random label a trecut testul relativ la trei eșantioane, limită pe care autorii o recunosc.

Portarea în afara zonei vision rămâne, însă, de demonstrat. Lucrările arXiv:2510.16629 publicate în octombrie 2025 stabilesc că un model nu poate uita niciodată perfect datele doar prin ajustarea parametrilor curenți: rămâne o amprentă reziduală a informațiilor presupus șterse - un obstacol structural pe care testul lui Ribero și alții îl măsoară, dar nu îl elimină. Feng et al. (CMU, UK AI Security Institute, Oxford), într-un preprint din mai 2025, consideră evaluările actuale de unlearning pe modelele mari de limbaj neconcludente, iar Chen et al. (LMU Munich, Oxford, Siemens) au publicat simultan un cadru de audit specific pentru LLM-uri - cadru care nu a fost comparat în articolul AISTATS 2026.

O obligație de rezultat fără metodă opozabilă

RGPD deschide, prin articolul 17 privind dreptul la ștergere, posibilitatea ca o persoană să ceară eliminarea datelor sale: aplicat unui model de AI, acest lucru înseamnă să se poată demonstra că datele vizate nu mai influențează output-urile. RGPD impune o obligație de ștergere atunci când condițiile articolului 17 sunt îndeplinite; aplicată modelelor de AI, această obligație se lovește însă de o zonă gri tehnică: cum demonstrezi că datele vizate nu mai continuă să influențeze comportamentul modelului?

La nivel european, cadrul cel mai recent nu acoperă acest gol. Code of Practice GPAI, a cărui versiune finală a fost publicată de Comisia Europeană în iulie 2025, este un instrument voluntar care acoperă transparența, drepturile de autor și securitatea, ajutând furnizorii să demonstreze conformitatea cu articolul 53 din regulamentul AI Act, care impune un rezumat public al conținuturilor folosite pentru antrenare (articolul 53(1)(d), aplicabil din 2 august 2025). Documentul - în versiunea consultată - nu prescrie nicio metodă de verificare a ștergerii efective a unei date dintr-un model deja implementat.

Diferența se închide prin instrumente, nu prin texte. Tocmai acest gol încearcă să-l acopere testul semnat de Ribero, Schrab și Gretton, propunând o măsură statistică defensabilă a unei ștergeri reușite. Rămâne însă proba care nu a fost încă trecută: atâta timp cât validarea experimentală nu iese din benchmark-urile sintetice și modelele de fizică pentru a ajunge la modelele mari de limbaj, unde se concentrează cererile de ștergere, lanțul de dovezi așteptat de un Data Protection Officer rămâne incomplet.

Stephane Nachez

Redacția ActuIA — știri, date și analize despre inteligența artificială pentru decidenți.

Machine unlearning: Google Research validează un test de audit, dar încă nu pentru LLM-uri

Ce corectează testul și ce lasă deschis

O obligație de rezultat fără metodă opozabilă

Ajutați de GPT-5, apoi lăsați pe cont propriu: un experiment randomizat măsoară costul de învățare al asistenței IA

Preprintul ExpGraph propune o memorie grafică auto-evolutivă pentru agenții LLM

GPT mai încrezător în sarcinile dificile unde greșește cel mai mult, conform unui preprint USC/Berkeley