Lancement du premier Machine Unlearning Challenge Google AI

Google a l’ambition de faire progresser l’état de l’art en matière de désapprentissage automatique en encourageant le développement d’algorithmes de désapprentissage efficients, efficaces et éthiques. C’est dans cet objectif que la société lance le premier « Machine Unlearning Challenge », qui sera organisé sur Kaggle et se déroulera entre la mi-juillet et la mi-septembre 2023. Le kit de démarrage, disponible sur GitHub, fournit aux participants une base pour construire et tester leurs modèles.

Dans le contexte de l’apprentissage automatique, les modèles sont généralement conçus pour apprendre à partir de données et à améliorer leurs performances grâce à l’expérience. Cependant, dans certains cas, il peut être nécessaire d’oublier ou de supprimer certaines connaissances acquises précédemment. Cela peut être dû à plusieurs raisons, telles que l’obsolescence des données, répondre aux réglementations en matière de protection de la vie privée comme le RGPD ou des changements dans les préférences de l’utilisateur, le droit à l’oubli…

Il existe différentes techniques pour gérer l’oubli ou la suppression de connaissances dans les modèles d’apprentissage automatique. Certaines approches consistent à réinitialiser les poids du modèle et à le réentraîner à partir de zéro avec de nouvelles données. D’autres méthodes impliquent l’utilisation de techniques d’optimisation spécifiques pour mettre à jour ou désactiver sélectivement les parties du modèle qui doivent être « oubliées ».

Le problème du désapprentissage est complexe et multidimensionnel, car il implique plusieurs objectifs contradictoires : oublier les données demandées tout en maintenant l’utilité du modèle et l’efficacité. C’est la raison pour laquelle, selon Google, les algorithmes de désapprentissage existants font des compromis différents. Ainsi, le recyclage complet permet d’oublier avec succès sans endommager l’utilité du modèle, mais avec une efficacité médiocre, tandis que l’ajout de bruit aux poids permet d’oublier au détriment de l’utilité.

Le premier « Machine Unlearning Challenge »

Ce challenge se tiendra dans le cadre de la piste de compétition NeurIPS 2023.

Selon Google, l’objectif du concours est double :

« Tout d’abord, en unifiant et en normalisant les mesures d’évaluation pour le désapprentissage, nous espérons identifier les forces et les faiblesses de différents algorithmes grâce à des comparaisons de pommes à pommes. Deuxièmement, en ouvrant ce concours à tous, nous espérons favoriser de nouvelles solutions et mettre en lumière les défis et les opportunités ouverts ».

Le concours envisage un scénario réaliste dans lequel un prédicteur d’âge a été formé sur des images faciales et, après l’entraînement, un certain sous-ensemble des images d’entraînement doit être oublié pour protéger la vie privée ou les droits des personnes concernées.

©Google : Un algorithme de désapprentissage prend comme entrée un modèle pré-entraîné et un ou plusieurs échantillons du train à désapprendre (le « forget set »). À partir du modèle, de l’ensemble d’oubli et de l’ensemble de retenue, l’algorithme de désapprentissage produit un modèle mis à jour. Un algorithme de désapprentissage idéal produit un modèle qui est impossible à distinguer du modèle entraîné sans l’ensemble d’oubli.

Les participants sont invités à soumettre un code qui prend comme entrée le prédicteur formé, les ensembles d’oubli et de retenue, et qui génère les poids d’un prédicteur qui a désappris l’ensemble oublié désigné. Les soumissions seront évaluées en fonction de la force de l’algorithme d’oubli et de l’utilitaire du modèle. Les algorithmes de désapprentissage qui fonctionnent plus lentement qu’une fraction du temps nécessaire pour se recycler seront rejetés.

Les gagnants seront annoncés en octobre 2023.

Références : blog Google AI