Machine unlearning : Google Research valide un test d'audit, mais pas encore sur les LLMs

Google Research a présenté à AISTATS 2026 un test statistique destiné à auditer le machine unlearning, c’est-à-dire l’effacement ciblé de données dans un modèle déjà entraîné. Le framework Regularized f-Divergence Kernel Tests, signé par Mónica Ribero, Antonin Schrab et Arthur Gretton, promet de réduire fortement le coût expérimental de certains audits : sur le mécanisme SVT3 de confidentialité différentielle, il détecte des violations avec quelques milliers d’échantillons, là où DP-Auditorium pouvait en exiger des millions. Mais sa portée reste limitée : les validations publiées concernent des benchmarks synthétiques et des jeux de physique des hautes énergies, pas les grands modèles de langage, alors même que ceux-ci concentrent les tensions réglementaires autour de l’effacement, de la traçabilité et de la gouvernance des données.

Ce que le test corrige et ce qu'il laisse ouvert

L'outil cible un défaut connu du test deux-échantillons standard (MMD). Deux modèles réentraînés depuis zéro sur les mêmes données mais avec des tailles de lot différentes produisent des distributions distinctes, ce qui déclenche une fausse alerte d'échec d'unlearning. Le nouveau test contourne ce piège par un test relatif à trois échantillons et une sélection automatique de la f-divergence - une mesure de distance entre distributions - la mieux adaptée à chaque type de dérive.

Le contraste de coût expérimental est l'argument principal. Sur le mécanisme SVT3 (Sparse Vector Technique) en confidentialité différentielle, le framework détecte des violations avec quelques milliers d'échantillons, contre des millions pour DP-Auditorium - l'outil de référence publié par Google Research en 2024 (arXiv:2307.05608) - pour un taux de détection comparable. Le détail compte: le gain est documenté sur SVT3, pas sur l'ensemble des mécanismes de confidentialité différentielle, et les auteurs précisent qu'aucune divergence unique ne domine systématiquement les autres. Trois méthodes - Selective Synaptic Dampening (SSD), pruning et finetuning - ont été jugées incapables d'effacer effectivement les données ciblées dans les conditions expérimentales simplifiées du papier; seule la technique random label a passé le test relatif à trois échantillons, limite que les auteurs reconnaissent.

La portée extra-vision reste, elle, à démontrer. Les travaux d'arXiv:2510.16629 publiés en octobre 2025 établissent qu'un modèle ne peut jamais parfaitement oublier des données en ajustant uniquement ses paramètres courants: il subsiste une empreinte résiduelle des informations supposément effacées - un obstacle structurel que le test de Ribero et al. mesure mais ne lève pas. Feng et al. (CMU, UK AI Security Institute, Oxford), dans un préprint de mai 2025, jugent les évaluations actuelles d'unlearning sur grands modèles de langage non concluantes, et Chen et al. (LMU Munich, Oxford, Siemens) ont publié simultanément un cadre d'audit spécifique aux LLMs - cadre non comparé dans le papier AISTATS 2026.

Une obligation de résultat sans méthode opposable

Le RGPD ouvre, via son article 17 sur le droit à l'effacement, la possibilité pour une personne d'exiger la suppression de ses données: appliqué à un modèle d'IA, cela revient à devoir établir que les données concernées ont cessé d'influencer les outputs. Le RGPD impose une obligation d’effacement lorsque les conditions de l’article 17 sont réunies ; appliquée aux modèles d’IA, cette obligation se heurte toutefois à une zone grise technique : comment démontrer que les données concernées ne continuent plus d’influencer le comportement du modèle ?

À l'échelon européen, le cadre le plus récent ne comble pas ce vide. Le Code de bonnes pratiques GPAI, dont la Commission européenne a publié la version finale en juillet 2025, est un outil volontaire couvrant transparence, droits d'auteur et sécurité, qui aide les fournisseurs à démontrer leur conformité à l'article 53 du règlement AI Act, lequel impose une synthèse publique des contenus utilisés pour l'entraînement (article 53(1)(d), applicable depuis le 2 août 2025). Le document - dans la version consultée - ne prescrit aucune méthode de vérification de l'effacement effectif d'une donnée dans un modèle déjà déployé.

L'écart se referme par les outils, pas par les textes. C'est précisément le vide que le test de Ribero, Schrab et Gretton cherche à outiller, en proposant une mesure statistique défendable d'un effacement réussi. Reste l'épreuve qui n'est pas franchie: tant que la validation expérimentale ne sort pas des benchmarks synthétiques et des modèles de physique pour rejoindre les grands modèles de langage où se concentrent les demandes d'effacement, la chaîne de preuve attendue par un délégué à la protection des données reste incomplète.

Stephane Nachez

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.

Machine unlearning : Google Research valide un test d'audit, mais pas encore sur les LLMs

Ce que le test corrige et ce qu'il laisse ouvert

Une obligation de résultat sans méthode opposable

Google présente MLE-STAR : une nouvelle approche pour l’ingénierie du Machine Learning

Avec LARA, le risque réglementaire des LLM devient une pièce d'audit pour les DPO

GPT plus confiant sur les tâches difficiles où il se trompe le plus, selon un preprint USC/Berkeley