La vostra fonte di riferimento per le informazioni sull’intelligenza artificiale

Ricerca in intelligenza artificiale

Machine unlearning: Google Research convalida un test di audit, ma non ancora sui LLMs

STStephane Nachez · · ·4 min
Machine unlearning: Google Research convalida un test di audit, ma non ancora sui LLMs
Sommario

Google Research ha presentato ad AISTATS 2026 un test statistico destinato ad auditare il machine unlearning, cioè la cancellazione mirata di dati in un modello già addestrato. Il framework Regularized f-Divergence Kernel Tests, firmato da Mónica Ribero, Antonin Schrab e Arthur Gretton, promette di ridurre in modo significativo il costo sperimentale di alcuni audit: sul meccanismo SVT3 della differential privacy, rileva violazioni con poche migliaia di campioni, mentre DP-Auditorium poteva richiederne milioni. Ma il suo perimetro resta limitato: le validazioni pubblicate riguardano benchmark sintetici e dataset di fisica delle alte energie, non i grandi modelli di linguaggio, proprio mentre questi ultimi concentrano le tensioni regolatorie attorno a cancellazione, tracciabilità e governance dei dati.

Ciò che il test corregge e ciò che lascia aperto

Lo strumento interviene su un difetto noto del test standard a due campioni (MMD). Due modelli riaddestrati da zero sugli stessi dati ma con dimensioni di batch diverse producono distribuzioni distinte, facendo scattare un falso allarme di fallimento dell'unlearning. Il nuovo test aggira questa trappola con un test relativo a tre campioni e una selezione automatica della f-divergence - una misura di distanza tra distribuzioni - più adatta a ciascun tipo di deriva.

Il divario nei costi sperimentali è l'argomento principale. Sul meccanismo SVT3 (Sparse Vector Technique) in differential privacy, il framework rileva violazioni con poche migliaia di campioni, contro i milioni richiesti da DP-Auditorium - lo strumento di riferimento pubblicato da Google Research nel 2024 (arXiv:2307.05608) - a parità di tasso di rilevamento. Il dettaglio è importante: il guadagno è documentato su SVT3, non sull'insieme dei meccanismi di differential privacy, e gli autori precisano che nessuna singola divergenza domina sistematicamente le altre. Tre metodi - Selective Synaptic Dampening (SSD), pruning e finetuning - sono stati giudicati incapaci di cancellare effettivamente i dati target nelle condizioni sperimentali semplificate del paper; solo la tecnica random label ha superato il test relativo a tre campioni, un limite che gli autori riconoscono.

La portata oltre la vision resta invece da dimostrare. I lavori di arXiv:2510.16629 pubblicati nell'ottobre 2025 stabiliscono che un modello non può mai dimenticare perfettamente dei dati agendo solo sui parametri correnti: rimane un'impronta residua delle informazioni presumibilmente cancellate - un ostacolo strutturale che il test di Ribero et al. misura ma non elimina. Feng et al. (CMU, UK AI Security Institute, Oxford), in un preprint del maggio 2025, ritengono che le valutazioni attuali dell'unlearning sui grandi modelli di linguaggio non siano conclusive, e Chen et al. (LMU Munich, Oxford, Siemens) hanno pubblicato simultaneamente un framework di audit specifico per i LLMs - framework non confrontato nel paper AISTATS 2026.

Un obbligo di risultato senza un metodo opponibile

Il GDPR apre, tramite il suo articolo 17 sul diritto alla cancellazione, la possibilità per una persona di chiedere la rimozione dei propri dati: applicato a un modello di IA, ciò equivale a dover dimostrare che i dati interessati hanno smesso di influenzare gli output. Il GDPR impone un obbligo di cancellazione quando ricorrono le condizioni dell'articolo 17; applicato ai modelli di IA, questo obbligo si scontra tuttavia con una zona grigia tecnica: come dimostrare che i dati interessati non continuano più a influenzare il comportamento del modello?

A livello europeo, il quadro più recente non colma questo vuoto. Il Code of Practice GPAI, di cui la Commissione europea ha pubblicato la versione finale nel luglio 2025, è uno strumento volontario che copre trasparenza, copyright e sicurezza, e aiuta i fornitori a dimostrare la conformità all'articolo 53 dell'AI Act, che impone una sintesi pubblica dei contenuti utilizzati per l'addestramento (articolo 53(1)(d), applicabile dal 2 agosto 2025). Il documento - nella versione consultata - non prescrive alcun metodo per verificare l'effettiva cancellazione di un dato in un modello già distribuito.

Il divario si colma con gli strumenti, non con i testi. È precisamente il vuoto che il test di Ribero, Schrab e Gretton cerca di colmare, proponendo una misura statistica difendibile di un'effettiva cancellazione riuscita. Resta però la prova che non è ancora stata superata: finché la validazione sperimentale non uscirà dai benchmark sintetici e dai modelli di fisica per raggiungere i grandi modelli di linguaggio, dove si concentrano le richieste di cancellazione, la catena di prova attesa da un data protection officer rimane incompleta.

ST
Stephane Nachez
subscriber

Redazione ActuIA — notizie, dati e analisi sull'intelligenza artificiale per i decisori.