Dark knowledge, Embodiment & Modélisation du monde sur ChatGPT : l'analyse de Thibault Neveu

ChatGPT est un modèle de langage développé par OpenAI qui utilise une architecture de type transformer pour générer du texte à partir d’un contexte donné. Un grand corpus de données textuelles entraîne modèle, cela lui permet d’acquérir une connaissance importante des relations sémantiques et syntaxiques dans le langage naturel.

ChatGPT développé par OpenAI — ChatGPT a été développé par OpenAI

Dans sa dernière vidéo, intitulée “La face caché de ChatGPT : Dark knowledge, Embodiment & Modélisation du monde”, Thibault Neveu propose des réflexions autour du fonctionnement de ChatGPT. Il y introduit la notion de Dark knowledge et d’embodiment, passe en revu les étapes ayant permis la création de cette IA et propose une réflexion sur les implications futures qu’elles pourraient avoir sur les capacités de modélisation du monde des modèles d’intelligence artificielle.

ChatGPT et le dark knowledge

Le YouTubeur et ingénieur Thibault Neveu, a mis en lumière l’une des caractéristiques clé de ChatGPT : son “dark knowledge“. Ce terme fait référence à l’ensemble des connaissances que le modèle a acquis à partir des données qu’il a perçues, mais qui ne sont pas nécessairement accessibles ou utilisables de manière directe. C’est seulement avec une stratégie d’entraînement adaptée que l’on pourra exploiter le plein potentiel de ces modèles de langage.

Avec ce type de modèle on est capable de faire du transfert learning, ou transfert d’apprentissage, pour faire en sorte de réutiliser la connaissance de ce modèle sur de nouvelles images ou de nouvelles cat d’images. La connaissance des données apprise sur un domaine est transférable. En effet, le modèle a compris certains des mécanismes qui constituaient une entité dans une image et va être capable de réutiliser ces concepts pour une nouvelle catégorie d’images. L’innovation, selon l’ingénieur, ne réside donc pas tant dans le modèle que dans la procédure d’entraînement, qui a permis d’utiliser correctement le dark knowledge déjà présent dans le modèle.

L’embodiment dans le contexte de ChatGPT

Le co-fondateur et directeur technique chez Visual Behavior y a également introduit la notion d’embodiment dans le contexte de ChatGPT. L’embodiment désigne la capacité d’un modèle à “incarner” les connaissances qu’il a acquises de manière à les rendre applicables à des tâches spécifiques. D’après ce concept, l’émergence de l’intelligence artificielle ne peut arriver qu’à partir du moment où on donne un corps à un agent (un corps physique, virtuel) car ce corps induit qu’il peut agir sur son environnement et le changer. Dans le cas de ChatGPT, l’embodiment est réalisé à travers une procédure d’apprentissage par renforcement, qui permet au modèle de modéliser un environnement dans lequel il est capable de simuler l’impact de ses actions. Ainsi, si ChatGPT réutilise des architectures que l’on connaît ainsi qu’une procédure d’entraînement que l’on connaît, en quoi ce modèle est-il une révolution ?

Comme le rappelle le vidéaste, pour comprendre comment ChatGPT a été créé, il est important de comprendre les grandes étapes qui ont conduit à son développement.

L’apprentissage auto-supervisé

L’apprentissage auto-supervisé est un concept clé dans la création de modèles d’IA tels que ChatGPT. Il consiste à entraîner un modèle à prédire la suite d’un texte donné de manière statistiquement plausible, sans nécessairement vérifier si les informations sont factuellement vraies. Cette méthode permet de s’appuyer sur les données textuelles disponibles en ligne sans avoir besoin d’annoter explicitement le texte.

L’apprentissage supervisé

Après cette première étape d’apprentissage auto-supervisé, on peut passer à l’apprentissage supervisé. Cette étape consiste à utiliser un modèle (B) qui est un réplica du modèle précédent (A), spécialisé pour une tâche précise. Les humains annotent les conversations pour que les réponses soient acceptables (politiquement correctes, moralement correctes, etc.). Le modèle B apprend alors à reconnaître les patterns de conversation qui font que les réponses sont correctes ou non. Cependant, cette étape soulève des questions éthiques, car elle implique de laisser un groupe de personnes définir ce qui est moralement correct ou non.

Le modèle critique

Enfin, l’étape la plus importante est celle de la création d’un modèle critique, appelé Agent A. Cela consiste à utiliser la méthode d’apprentissage par renforcement appelée PPO (Proximal Policy Optimization), introduite par OpenAI, afin d’entraîner le modèle à générer des réponses statistiquement plausibles et conformes aux critères éthiques définis par le modèle B. Cette interaction entre les deux modèles permet de maximiser les performances de l’Agent A tout en respectant les normes éthiques.

Cette interaction entre les deux modèles (l’agent A et le modèle B) est importante, car elle réutilise un des concepts de Yann LeCun, à savoir, les energy based model où les deux modèles vont interagir l’un avec l’autre via cette procédure d’optimisation et d’apprentissage par renforcement. Un modèle va générer des phrases, l’autre va lui dire à quel point la phrase est bonne. Les deux vont mathématiquement interagir pour faire en sorte de maximiser et de modifier les sorties de ses phrases, pour satisfaire l’autre. Les deux modèles ont accès à la connaissance de l’autre et inversement. Cette étape de création de modèle critique est cruciale pour garantir que les modèles d’IA ne causent pas de préjudices aux utilisateurs et respectent les valeurs morales de la société.

Bien que ChatGPT utilise une architecture de type transformer qui est déjà connue dans le domaine de l’IA, l’innovation réside principalement dans la manière dont le modèle a été entraîné pour utiliser son dark knowledge de manière efficace. Cette approche a permis à ChatGPT de dépasser les performances des modèles précédents, dans des tâches comme la génération de texte et la compréhension du langage naturel.

En résumé, on apprend dans cette vidéo que ChatGPT est un modèle révolutionnaire qui a su tirer parti de son dark knowledge grâce à une procédure d’entraînement innovante basée sur l’embodiment. Les implications futures de cette approche pourraient être considérables pour les capacités de modélisation du monde des modèles d’IA. Il est donc important de poursuivre les recherches dans ce domaine pour comprendre pleinement les possibilités offertes par ChatGPT et les modèles similaires.

ChatGPT et le dark knowledge

L’embodiment dans le contexte de ChatGPT

L’apprentissage auto-supervisé

L’apprentissage supervisé

Le modèle critique