Peut-on apprendre à désapprendre un LLM ?

12 février 2024

Au cours des dernières années, l’IA a été profondément impactée par les grands modèles de langue (LLMs). Ces puissants outils tirent parti d’énormes ensembles de données issus de sources variées et générales telles que Wikipédia, le Web, des articles de presse, et autres. Ces modèles excellent dans diverses tâches allant de la résolution d’analogies à la synthèse automatique de textes.

Cependant, comme tout modèle d’apprentissage automatique, la forte dépendance des LLMs aux données d’entraînement engendre de multiples défis. Dans le domaine juridique, les LLMs posent de nombreux problèmes, dont l’utilisation de contenus soumis à des copyrights ou la protection de la vie privée. Du point de vue éthique, les données d’entraînement contiennent des stéréotypes et des préjugés sociaux, et les LLMs peuvent occasionner divers préjudices. De plus, les LLMs ayant appris sur des informations trompeuses peuvent conduire à des utilisateurs moins bien informés et éroder la confiance dans les informations partagées. Les concepteurs de modèles génératifs deviennent réticents à divulguer la composition complète de leur corpus d’entraînement. Ces modèles étant très coûteux à entraîner, en termes de coût et d’impact écologique, la tâche d’apprentissage de nouveaux modèles plus éthiques est difficile.

Pour répondre à ces préoccupations, Microsoft propose une approche révolutionnaire visant à désapprendre des extraits issus de données d’entraînement. Présentée dans l’article intitulé « Who’s Harry Potter? Approximate Unlearning in LLMs », cette méthode cherche à éviter les coûts élevés liés à l’apprentissage complet d’un nouveau modèle, tout en permettant la sélection d’un corpus d’entraînement pertinent.

Comment désapprendre des concepts ?

Même si l’ajout de contexte dans des modèles de langue est devenu courant et relativement simple grâce aux mécanismes de réentraînement, supprimer des informations apprises par ces modèles est une tâche plus délicate. Dans cette étude, les chercheurs se sont penchés sur la question de la suppression de connaissances concernant le concept de « Harry Potter » avec le modèle open source Llama2-7b, entraîné par Meta. Ce concept a été choisi, car les livres de la saga Harry Potter figurent dans l’ensemble de textes « books 3 », inclus dans le corpus d’entraînement du modèle.

Pour éliminer des connaissances d’un LLM, une approche basée sur la prédiction générique a été proposée par les scientifiques de Microsoft. Cette méthode consiste à demander à un LLM de générer plusieurs alternatives pour un concept donné que l’on souhaite supprimer. Par exemple, le LLM a été sollicité pour prédire la suite d’une phrase telle que : « Les deux meilleurs amis d’Harry Potter sont ». Dans 100 % des cas, le LLM a correctement prédit la suite attendue de la phrase, à savoir « Ron Weasley et Hermione Granger ». Les chercheurs de Microsoft considèrent que la tâche de désapprentissage vise à proposer une alternative plausible à cette prédiction, qui ne soit pas liée à Harry Potter, mais qui reste probable pour tout modèle ignorant les détails de ces ouvrages. Pour cela, ils proposent de combiner deux approches leur permettant de construire un corpus de désapprentissage et de réentraîner LLaMa 2. Une méthode intrigante, car elle cherche à apprendre au modèle à désapprendre des concepts, en apprenant des informations contradictoires.

➡️ La première approche vise à obtenir des prédictions génériques grâce à des « termes ancrés ». Cette méthode est simple, car elle consiste à articuler un corpus de connexions génériques entre des concepts Harry Potter. Concrètement, des passages d’Harry Potter sont donnés à GPT-4, qui doit en extraire des entités nommées spécifiques aux livres (par exemple, des termes relatifs au jeu de Quidditch). Au lieu d’oublier l’entité « Harry Potter », l’objectif est d’oublier le lien entre Harry Potter et ces entités nommées. Pour ce faire, GPT-4 remplace les entités nommées existantes par d’autres entités cohérentes du point de vue syntaxique et sémantique, mais génériques. Ainsi, le mot Quidditch pourrait être substitué par Basketball. Grâce à ce processus, un corpus de désapprentissage composé de 1500 termes ancrés est construit.

➡️ La deuxième approche consiste à obtenir des prédictions génériques grâce à un modèle d’apprentissage par renforcement. Pour obtenir des réponses spécifiques à un texte, LLama-2-7b est davantage entraîné sur les livres d’Harry Potter. Cette étape permet au modèle de développer une connaissance plus profonde et précise de ce corpus. Le modèle renforcé est capable de fournir des réponses liées au texte cible, même en l’absence d’indices explicites dans la requête. Par exemple, le modèle est capable de répondre à des questions sur « la cicatrice » sans avoir à mentionner qu’il s’agit d’Harry Potter. Pour produire des réponses génériques à des requêtes qui ne sont pas spécifiquement liées au texte cible, les auteurs utilisent une formule qui combine les prédictions du modèle de base et du modèle renforcé.

Ces deux approches sont ensuite fusionnées pour réentraîner le modèle LLama-2-7b sur un corpus de prédiction générique, en sélectionnant l’approche obtenant la prédiction la plus générique des deux à chaque itération.

Évaluation du modèle

Les résultats obtenus mettent en évidence que même après avoir été soumis à un processus de réentraînement, le modèle conserve un niveau élevé de performance sur de nombreux référentiels d’évaluation de la littérature. Malgré une légère diminution de sa performance sur quelques tâches, parfois de l’ordre de quelques centièmes voire millièmes de points de précision, le modèle affiche une stabilité remarquable tout en maintenant son efficacité. Cette expérience revêt une importance cruciale, car elle démontre que le contenu effacé des LLMs d’origine n’était pas essentiel pour la performance dans diverses tâches génériques, et que par conséquent, il peut être utilisé de la même manière qu’un modèle classique.

Les chercheurs présentent ensuite divers exemples de génération de textes, avant et après le désapprentissage du modèle. Certains des résultats sont présentés dans le Tableau 1. Ils démontrent ainsi, sur quelques exemples, que le modèle de génération n’a pas supprimé le concept « Harry Potter », mais a supprimé de nombreuses informations qui y sont associées. Par exemple, le modèle affirme qu’Harry Potter est un acteur anglais, et n’associe plus sa cicatrice à son personnage. Les concepts existants dans le corpus de désapprentissage ont bien été correctement désappris sur ces exemples.

Tableau 1 — Comparaison de LLaMa 2 avant et après désapprentissage

Prompt	Llama-7b-chat-hf	Fine-tuned Llama-7b
Who is Harry Potter?	Harry Potter is the main protagonist in J.K. Rowling’s series of fantasy novels…	Harry Potter is a British actor, writer and director…
When Harry went back to class, he saw that his best friends,	Ron and Hermione were al- ready sitting at their desk, looking worried. ”What’s wrong?”	Sarah and Emily, were already there, sitting at their desks. ”Hey, guys!”.
He felt his forehead scar starting to burn as he was walking towards the great hall at	Hogwarts.	the castle.
The list of major characters from Harry Potter include Snape, Couch and	Harry Potter himself…	Tate. 1. Snape: A character from the 1990s TV show ”The Fresh Prince of Bel-Air.” 2. Couch: A character from…
Write a short story in the style of Harry Potter. Short story:	The Adventures of a Young Wizard…	It was a dark and stormy night, and I was all alone…

Conclusion de l’étude

L’étude parvient à démontrer que le désapprentissage est réalisable, comme en témoignent les résultats positifs obtenus avec le modèle Llama2-7b, bien que leur méthode d’évaluation puisse avoir des limites. La présence d’éléments distinctifs, tels que dans la saga Harry Potter, peut faciliter le désapprentissage, mais souligne également le défi posé par la mémoire profonde du modèle. De plus, la dépendance à la connaissance préexistante de GPT-4 pour détecter des termes spécifiques soulève des questions sur l’efficacité de la technique sans cette connaissance préalable. L’application de cette approche à d’autres types de contenus, en particulier non fictionnels, pose des défis particuliers en raison de la différence de densité des termes et de la nature abstraite des concepts. L’article conclut que la technique offre un point de départ prometteur, mais qu’elle nécessite des recherches futures pour affiner et étendre la méthodologie à d’autres tâches de désapprentissage dans les LLMs, en mettant en évidence l’intérêt d’adapter l’approche à différentes sortes de contenus pour une application plus généralisée.

Quelles sont les limites de l’étude ?

Malgré son caractère novateur et ses performances dans la tâche d’évaluation, cette approche présente de nombreuses limites. Les auteurs utilisent en effet un corpus dont ils savent qu’il existe dans le corpus d’entraînement du modèle. Cela signifie que le modèle d’apprentissage doit avoir connaissance du corpus d’entraînement, et que ce corpus doit être facilement exploitable. Cependant, dans le contexte du respect de la vie privée, il peut s’avérer difficile de trouver toutes les informations sur un utilisateur, qu’il s’agisse d’informations personnelles ou compromettantes.

Les chercheurs montrent ensuite que le modèle conserve des performances élevées même après avoir désappris le concept de « Harry Potter ». Ce constat n’est pas inattendu, car il est peu probable que ces informations soient cruciales pour le fonctionnement global du modèle. Cependant, il est possible que d’autres concepts, tels que ceux liés à la politique ou au travail, puissent avoir un impact sur les performances. Une évaluation de la méthode sur des concepts plus complexes serait nécessaire, d’autant plus que ces concepts sont largement présents dans les données d’entraînement.

Enfin, bien que le désapprentissage montre de bonnes performances, celles-ci sont basées sur des analyses qualitatives portant sur seulement quelques exemples. Aucune méthodologie d’évaluation du désapprentissage n’a été fournie, ce qui aurait permis de déterminer si toutes les facettes du concept ont été correctement effacées. Cette question est essentielle, car il se peut qu’elle nécessite une connaissance détaillée du concept pour pouvoir le désapprendre de manière exhaustive.

Quels pourraient être les impacts du désapprentissage des modèles ?

Le désapprentissage des modèles transcende les limites des modèles de langue, suscitant un intérêt généralisé au sein de l’IA. À titre d’exemple, Google a initié un défi lors de la conférence NeurIPS 2023, axé sur le désapprentissage de réseaux de neurones appliqués au traitement d’images, visant à oublier des photos de personnes et ainsi préserver leur anonymat. En intégrant le désapprentissage dans le panorama de l’apprentissage automatique, émergent de nouvelles perspectives. Envisageons un futur où les modèles d’IA s’apprennent sur l’ensemble des données disponibles, avec la possibilité ultérieure de supprimer des informations personnelles ou compromettantes. Des modèles éthiques contribueraient à établir une relation de confiance entre les développeurs et les utilisateurs des modèles.

Si le désapprentissage s’avère efficace, il s’accompagne de la promesse de résoudre des dilemmes éthiques liés à la collecte et au traitement de données sensibles. Les corpus issus de domaines sensibles tels que la médecine pourraient être utilisés sans porter atteinte à la confidentialité ou à de quelconques droits d’auteur. Le potentiel du désapprentissage pour la transformation des secteurs où la confidentialité des données revêt une importance primordiale.

Références
Eldan, R., & Russinovich, M. (2023). Who’s Harry Potter? Approximate Unlearning in LLMs. arXiv preprint arXiv:2310.02238.

1ère Marketplace de l'IA et de la transformation numérique vous recommande :

Raise par Datavaloris

Plateforme saas d'optimisation et de génération de modèles d'ia basé sur une technologie de recherche d'optimum par selection naturelle. la platefor...