Machine Unlearning: Google Research validiert einen Audit-Test, aber noch nicht für LLMs

Google Research hat auf der AISTATS 2026 einen statistischen Test zur Prüfung von Machine Unlearning vorgestellt, also der gezielten Löschung von Daten in einem bereits trainierten Modell. Das Framework Regularized f-Divergence Kernel Tests, unterzeichnet von Mónica Ribero, Antonin Schrab und Arthur Gretton, verspricht, die experimentellen Kosten bestimmter Audits erheblich zu senken: Beim SVT3-Mechanismus für Differential Privacy erkennt es Verstöße mit einigen Tausend Stichproben, während DP-Auditorium dafür Millionen benötigt haben konnte. Sein Anwendungsbereich bleibt jedoch begrenzt: Die veröffentlichten Validierungen betreffen synthetische Benchmarks und Datensätze aus der Hochenergiephysik, nicht große Sprachmodelle, obwohl gerade diese im Zentrum der regulatorischen Spannungen rund um Löschung, Nachverfolgbarkeit und Daten-Governance stehen.

Was der Test behebt und was offen bleibt

Das Tool adressiert einen bekannten Schwachpunkt des Standard-Zwei-Stichproben-Tests (MMD). Zwei von Grund auf neu trainierte Modelle auf denselben Daten, aber mit unterschiedlichen Batch-Größen, erzeugen unterschiedliche Verteilungen und lösen so fälschlicherweise einen Unlearning-Fehlschlag aus. Der neue Test umgeht dieses Problem mithilfe eines Drei-Stichproben-Tests und einer automatischen Auswahl der am besten geeigneten f-Divergenz – eines Maßes für den Abstand zwischen Verteilungen – für die jeweilige Art der Abweichung.

Der Unterschied bei den experimentellen Kosten ist das zentrale Argument. Beim SVT3-Mechanismus (Sparse Vector Technique) in Differential Privacy erkennt das Framework Verstöße mit einigen Tausend Stichproben, gegenüber Millionen bei DP-Auditorium – dem 2024 von Google Research veröffentlichten Referenzwerkzeug (arXiv:2307.05608) – bei vergleichbarer Erkennungsrate. Der Punkt ist wichtig: Der Gewinn ist für SVT3 dokumentiert, nicht für alle Differential-Privacy-Mechanismen, und die Autorinnen und Autoren betonen, dass keine einzelne Divergenz die anderen systematisch dominiert. Drei Methoden – Selective Synaptic Dampening (SSD), pruning und finetuning – erwiesen sich unter den vereinfachten experimentellen Bedingungen des Papers als nicht in der Lage, die Ziel-Daten wirksam zu löschen; nur die Technik random label bestand den Drei-Stichproben-Test, eine Grenze, die die Autorinnen und Autoren selbst einräumen.

Die Übertragbarkeit über den Vision-Bereich hinaus bleibt dagegen noch zu belegen. Arbeiten auf arXiv:2510.16629, veröffentlicht im Oktober 2025, zeigen, dass ein Modell Daten niemals perfekt vergessen kann, wenn nur seine aktuellen Parameter angepasst werden: Es bleibt eine Restspur der angeblich gelöschten Informationen – ein strukturelles Hindernis, das der Test von Ribero et al. misst, aber nicht beseitigt. Feng et al. (CMU, UK AI Security Institute, Oxford) bewerten in einem Preprint vom Mai 2025 die aktuellen Unlearning-Evaluierungen für große Sprachmodelle als nicht schlüssig, und Chen et al. (LMU Munich, Oxford, Siemens) haben zeitgleich ein spezifisches Audit-Framework für LLMs veröffentlicht – ein Framework, das im AISTATS-2026-Paper nicht verglichen wurde.

Eine Ergebnisverpflichtung ohne durchsetzbare Methode

Die DSGVO eröffnet über Artikel 17 zum Recht auf Löschung die Möglichkeit, dass eine Person die Entfernung ihrer Daten verlangen kann: Auf ein KI-Modell angewendet bedeutet das, nachzuweisen, dass die betreffenden Daten die Outputs nicht mehr beeinflussen. Die DSGVO verpflichtet zur Löschung, wenn die Bedingungen von Artikel 17 erfüllt sind; auf KI-Modelle angewandt, stößt diese Pflicht jedoch auf eine technische Grauzone: Wie lässt sich nachweisen, dass die betreffenden Daten das Verhalten des Modells nicht mehr beeinflussen?

Auf europäischer Ebene schließt der jüngste Rahmen diese Lücke nicht. Der GPAI Code of Practice, dessen endgültige Fassung die Europäische Kommission im Juli 2025 veröffentlicht hat, ist ein freiwilliges Instrument zu Transparenz, Urheberrecht und Sicherheit, das Anbietern hilft, ihre Konformität mit Artikel 53 des AI Act nachzuweisen; dieser verlangt eine öffentliche Zusammenfassung der für das Training verwendeten Inhalte (Artikel 53(1)(d), anwendbar seit dem 2. August 2025). Das Dokument – in der konsultierten Fassung – schreibt keine Methode zur Verifikation vor, dass eine Datenlöschung in einem bereits eingesetzten Modell tatsächlich wirksam war.

Die Lücke wird durch Werkzeuge geschlossen, nicht durch Texte. Genau dieses Vakuum versucht der Test von Ribero, Schrab und Gretton zu adressieren, indem er ein belastbares statistisches Maß für erfolgreiches Löschen vorschlägt. Übrig bleibt jedoch die Prüfung, die noch nicht bestanden ist: Solange die experimentelle Validierung nicht über synthetische Benchmarks und Physikmodelle hinaus zu großen Sprachmodellen gelangt, in denen sich die Löschanfragen konzentrieren, bleibt die von einem Datenschutzbeauftragten erwartete Nachweiskette unvollständig.

Stephane Nachez

ActuIA-Redaktion — Nachrichten, Daten und Analysen zur künstlichen Intelligenz für Entscheidungsträger.

Machine Unlearning: Google Research validiert einen Audit-Test, aber noch nicht für LLMs

Was der Test behebt und was offen bleibt

Eine Ergebnisverpflichtung ohne durchsetzbare Methode

Mit GPT-5 unterstützt, dann auf sich allein gestellt: Eine randomisierte Studie misst die Kosten des Lernens durch KI-Hilfe

Solaria-3: Gladia liegt bei Produktionsaudio laut eigenen Messungen vorn

Starbucks zieht das Computer-Vision-Tool NomadGo nach neun Monaten in 11.000 Geschäften zurück