Meta AI et Papers with Code présentent Galactica, un modèle de langage scientifique open source

Meta AI et Papers with Code, une équipe autonome au sein de Meta AI Research, ont présenté, le 15 novembre dernier, Galactica, un modèle de langage open source de 120 milliards de paramètres formé sur un vaste corpus qui peut stocker, combiner et raisonner sur les connaissances scientifiques. L’objectif est d’aider à trouver les informations utiles dans la masse d’informations disponibles. Cette annonce a d’ores et déjà suscité des controverses au sein de la communauté scientifique.

Galactica a été formé sur un corpus comprenant plus de 360 millions de citations contextuelles et plus de 50 millions de références uniques normalisées à travers un ensemble diversifié de sources, ce qui lui permet de suggérer des citations et d’aider à découvrir des articles connexes. Parmi ces sources figure NatureBook, un nouvel ensemble de données scientifiques de qualité qui lui a permis d’être entraîné avec la terminologie scientifique, les mathématiques et les formules chimiques ainsi que les codes sources.

Gérer la pléthore d’informations scientifiques

La surcharge d’information est un obstacle majeur au progrès scientifique. Les chercheurs sont ainsi ensevelis sous une masse d’articles, ont du mal à retrouver les informations utiles à leurs recherches.

Galactica est un modèle de langage à grande échelle (LLM) formé sur plus de 48 millions d’articles, de manuels, de documents de référence, de composés, de protéines et d’autres sources de connaissances scientifiques. Il peut être utilisé par les chercheurs universitaires pour explorer la littérature, poser des questions scientifiques, écrire du code scientifique…

Le dataset

L’ensemble de données utilisé a été créé en tokenisant des informations provenant de diverses sources scientifiques. Pour l’interface, l’équipe a utilisé des jetons spécifiques à la tâche pour soutenir différents types de connaissances. Elle a traité les citations avec un jeton spécial, ce qui permet à un chercheur de prédire une citation en fonction de n’importe quel contexte d’entrée.

Le raisonnement étape par étape a été enveloppé lui aussi dans un jeton spécial, qui imite un mémoire de travail interne.

Les résultats

Galactica a obtenu de très bons résultats dans de nombreux domaines scientifiques.

Lors des tests de connaissances techniques telles que les équations LaTeX, Galactica a surpassé le dernier GPT-3 de 68,2% contre 49,0%. Il a également démontré de bonnes performances pour le raisonnement, surpassant Chinchilla sur MMLU mathématique avec un score de 41,3% contre 35,7%, et PaLM 540B sur MATH avec 20,4% contre 8,8%.

Il définit également un nouvel état de l’art sur les tâches en aval telles que PubMedQA et MedMCQA de 77,6% et 52,9%. Et bien qu’il n’ait pas été formé sur un corpus général, Galactica surpasse BLOOM et OPT-175B sur BIG-bench.

Pour les chercheurs, ces résultats démontrent le potentiel des modèles de langage en tant que nouvelle interface pour la science. Ils ont publié le modèle en open source au profit de la communauté scientifique.

La polémique

Sur le site Galactica, il est rappelé qu’il n’y a aucune garantie de sortie véridique ou fiable des modèles linguistiques, et qu’avant de suivre leurs conseils, il importe de mener des vérifications: “Certains des textes générés par Galactica peuvent sembler très authentiques et très confiants, mais peuvent être subtilement faux à bien des égards. C’est particulièrement le cas pour les contenus hautement techniques.”

Galactica doit être considéré comme un outil d’aide à la rédaction, comme l’a fait remarquer Yann Le Cun sur Twitter :

« Cet outil est à l’écriture sur papier ce que l’assistance à la conduite est à la conduite. Il n’écrira pas automatiquement des articles pour vous, mais il réduira considérablement votre charge cognitive pendant que vous les écrivez ».

Gary Marcus, scientifique expert en IA, Michael Black, Directeur de l’Institut Max Planck ont cependant réagi sur Twitter et ont alerté sur le fait que de fausses informations générées par Galactica puissent être reprises lors de soumissions scientifiques et induisent en erreur.

Meta AI et Papers with Code n’ont pas encore commenté, mais ils ont désactivé la fonction de démonstration du site Galactica.

Sources de l’article :

“Galactica: A Large Language Model for Science”
arXiv:2211.09085v1,16 Nov 2022

Auteurs:
Ross Taylor, Marcin Kardas, Guillem Cucurull, Thomas Scialom, Anthony Hartshorn, Elvis Saravia, Andrew Poulton, Viktor Kerkez, Robert Stojnic.
Meta AI