Onderzoek naar artificiële intelligentie

Machine unlearning: Google Research valideert een audittest, maar nog niet voor LLM’s

Google Research presenteert een statistische audittest voor machine unlearning die de experimentele kosten sterk verlaagt, maar de validatie blijft voorlopig beperkt tot synthetische benchmarks en fysicadatasets, niet tot LLM’s.

STStephane Nachez · · ·4 min
Machine unlearning: Google Research valideert een audittest, maar nog niet voor LLM’s
Sommaire

Google Research presenteerde op AISTATS 2026 een statistische test voor het auditen van machine unlearning, oftewel het gericht verwijderen van data uit een al getraind model. Het framework Regularized f-Divergence Kernel Tests, ondertekend door Mónica Ribero, Antonin Schrab en Arthur Gretton, belooft de experimentele kosten van bepaalde audits sterk te verlagen: op het SVT3-mechanisme voor differentiële privacy detecteert het schendingen met enkele duizenden samples, terwijl DP-Auditorium daar miljoenen voor kon vereisen. De reikwijdte blijft echter beperkt: de gepubliceerde validaties betreffen synthetische benchmarks en datasets uit de deeltjesfysica, niet de grote taalmodellen, terwijl juist die laatste het middelpunt vormen van de regulatoire spanningen rond verwijdering, traceerbaarheid en datagovernance.

Wat de test oplost en wat open blijft

De tool pakt een bekend tekort aan van de standaard two-sample test (MMD) aan. Twee modellen die vanaf nul opnieuw worden getraind op dezelfde data, maar met verschillende batchgroottes, kunnen verschillende distributies opleveren, wat een vals alarm voor een mislukte unlearning oplevert. De nieuwe test omzeilt deze valkuil met een three-sample test en een automatische selectie van de f-divergence - een maat voor afstand tussen distributies - die het best past bij het type drift.

Het verschil in experimentele kosten is het belangrijkste argument. Op het SVT3-mechanisme (Sparse Vector Technique) binnen differentiële privacy detecteert het framework schendingen met enkele duizenden samples, tegenover miljoenen voor DP-Auditorium - de referentietool die Google Research in 2024 publiceerde (arXiv:2307.05608) - bij een vergelijkbare detectiegraad. Een belangrijk detail: deze winst is gedocumenteerd op SVT3, niet op alle differentiële-privacymechanismen, en de auteurs preciseren dat geen enkele divergente maat systematisch de andere domineert. Drie methoden - Selective Synaptic Dampening (SSD), pruning en finetuning - bleken in de vereenvoudigde experimentele omstandigheden van het artikel niet in staat om de gerichte data daadwerkelijk te wissen; alleen de random label-techniek slaagde voor de three-sample test, een beperking die de auteurs erkennen.

De reikwijdte buiten de visie-domeinen moet nog worden aangetoond. Het werk arXiv:2510.16629, gepubliceerd in oktober 2025, stelt vast dat een model nooit perfect data kan vergeten door alleen zijn huidige parameters bij te sturen: er blijft een residuele afdruk van de zogenaamd verwijderde informatie achter - een structureel obstakel dat de test van Ribero et al. meet, maar niet wegneemt. Feng et al. (CMU, UK AI Security Institute, Oxford) oordelen in een preprint van mei 2025 dat de huidige evaluaties van unlearning bij grote taalmodellen niet doorslaggevend zijn, en Chen et al. (LMU Munich, Oxford, Siemens) publiceerden gelijktijdig een specifiek auditkader voor LLM’s - een kader dat in het AISTATS 2026-paper niet werd vergeleken.

Een resultaatsverplichting zonder afdwingbare methode

De GDPR opent via artikel 17 over het recht op gegevenswissing de mogelijkheid voor een persoon om verwijdering van zijn of haar data te eisen: toegepast op een AI-model betekent dit dat moet worden aangetoond dat de betreffende data geen invloed meer hebben op de outputs. De GDPR legt een verplichting tot verwijdering op wanneer aan de voorwaarden van artikel 17 is voldaan; toegepast op AI-modellen botst die verplichting echter op een technische grijze zone: hoe toon je aan dat de betreffende data het gedrag van het model niet langer beïnvloeden?

Op Europees niveau vult het meest recente kader dat vacuüm niet op. De GPAI Code of Practice, waarvan de Europese Commissie in juli 2025 de definitieve versie publiceerde, is een vrijwillig instrument rond transparantie, auteursrecht en veiligheid dat aanbieders helpt om hun conformiteit met artikel 53 van de AI Act aan te tonen. Dat artikel vereist een publieke samenvatting van de inhoud die voor training is gebruikt (artikel 53(1)(d), van toepassing sinds 2 augustus 2025). Het document - in de geraadpleegde versie - schrijft echter geen methode voor om de daadwerkelijke verwijdering van een gegeven uit een al uitgerold model te verifiëren.

De kloof wordt dus niet door de teksten, maar door de tools gedicht. Precies dat vacuüm probeert de test van Ribero, Schrab en Gretton te adresseren, door een verdedigbare statistische maat voor succesvolle verwijdering aan te reiken. Maar de echte horde blijft bestaan: zolang de experimentele validatie niet verder gaat dan synthetische benchmarks en fysicamodellen en niet uitkomt bij de grote taalmodellen waar de verwijderingsverzoeken zich concentreren, blijft de bewijsketen die een data protection officer nodig heeft onvolledig.

ST
Stephane Nachez
subscriber

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.