Meta présente LLaMA, conçu pour accélérer le développement des LLM et atténuer leurs problèmes

On se demandait quelle serait la réponse de Meta au succès fulgurant de ChatGPT : elle se nomme LLaMA (Large Language Model Meta AI). Ce modèle, publié récemment par la société “dans le cadre de son engagement envers l’open science”, disponible en plusieurs tailles (paramètres 7B, 13B, 33B et 65B) a été conçu pour aider les chercheurs à faire progresser leurs travaux dans ce sous-domaine de l’IA. La version de LLaMA aux 13 milliards de paramètres surpasserait GPT-3, malgré ses 175 milliards de paramètres, sur la plupart des benchmarks.

Les grands modèles de langage dont LLaMA fait aujourd’hui partie, ont été formés sur un grand nombre de données linguistiques afin de prédire le prochain mot d’une phrase. Ils ont démontré leurs capacités à effectuer d’autres tâches de traitement du langage naturel, que ce soit pour résumer des textes ou en générer, les traduire, ils ont également réussi à prédire des structures protéiques et à résoudre des problèmes en mathématiques…

Des modèles difficilement accessibles aux chercheurs

Cependant, les chercheurs disposent rarement des ressources nécessaires pour former et exécuter des modèles de cette envergure, ils ne peuvent donc pas vraiment comprendre comment et pourquoi ces grands modèles linguistiques fonctionnent. Cet accès restreint entrave les efforts visant à améliorer la robustesse et à atténuer les problèmes connus des LLM, tels que les biais, la toxicité et le potentiel de générer de la désinformation.

Des modèles plus petits et plus performants tels que LLaMA permettent à d’autres membres de la communauté de recherche qui n’ont pas accès à de grandes quantités d’infrastructures d’étudier ces modèles, démocratisant davantage l’accès dans ce domaine important et en évolution rapide.

LLaMA, un LLM plus économe tout en étant plus performant

Meta AI a démontré qu’il est possible de former des modèles de pointe en utilisant exclusivement des ensembles de données accessibles au public sans recourir à des jeux de données propriétaires comme Chinchilla, PaLM ou GPT-3.

Les modèles plus petits formés sur plus de jetons, en l’occurrence des morceaux de mots, sont plus faciles à recycler et à affiner pour des cas d’utilisation spécifiques. LLaMA 65B et LLaMA 33B ont ainsi été formés sur 1,4 billion de jetons, tandis que le plus petit modèle, LLaMA 7B l’a été sur un billion.

Si LLaMA- 13B, bien que 10 fois plus petit, surpasse GPT-3 sur la plupart des benchmarks, LLaMA-65B s’est révélé compétitif avec les meilleurs modèles, Chinchilla-70B et PaLM-540B.

Comme d’autres grands modèles de langage, LLaMA fonctionne en prenant une séquence de mots comme entrée et prédit un mot suivant pour générer récursivement du texte. Pour former son modèle, Meta a choisi le texte des 20 langues comptant le plus de locuteurs, dont les alphabets sont soit latin soit cyrillique.

LLama est présenté par Meta comme modèle fondamental : il a été entraîné sur un grand ensemble de données non étiquetées, ce qui le rend idéal pour affiner une variété de tâches. Il a ainsi été conçu pour être polyvalent et peut être appliqué à de nombreux cas d’utilisation différents, par opposition à un modèle affiné conçu pour une tâche spécifique.

Selon Meta, il nécessite beaucoup moins de puissance de calcul et de ressources pour tester de nouvelles approches, valider le travail des autres et explorer de nouveaux cas d’utilisation mais partage les problèmes des autres grands modèles de langage : biais, toxicité et désinformation.

META a donc partagé le code de LLaMA à d’autres chercheurs afin qu’ils puissent tester de nouvelles approches pour limiter ou éliminer ces problèmes. Elle fournit également dans l’article publié sur arXiv un ensemble d’évaluations sur les repères évaluant les biais et la toxicité du modèle afin de montrer les limites du modèle et de soutenir d’autres recherches dans ce domaine crucial.

Pour maintenir l’intégrité et prévenir les abus, LLama est publié sous une licence non commerciale axée sur les cas d’utilisation de recherche. L’accès au modèle sera accordé au cas par cas aux chercheurs universitaires, à ceux qui sont affiliés à des organisations gouvernementales, de la société civile et du milieu universitaire et aux laboratoires de recherche de l’industrie dans le monde entier.

Pour Meta, l’ensemble de la communauté de l’IA, chercheurs universitaires, société civile, décideurs politiques et industrie, doit collaborer afin d’élaborer des lignes directrices claires sur l’IA responsable en général et les grands modèles linguistiques responsables en particulier. La société se dit impatiente de voir ce que la communauté peut apprendre et éventuellement construire, en utilisant LLaMA.

Accéder à LLaMA.