Comment META accélère la recherche dans le domaine de l'IA grâce à son supercalculateur

En janvier 2022, Mark Zuckerberg annonçait la construction du supercalculateur AI Research SuperCluster (RSC). Meta a récemment annoncé l’achèvement de la deuxième phase de construction de son SuperCluster de Recherche (SCR), faisant de lui l’un des superordinateurs les plus rapides au monde. Cette réalisation marque une avancée significative dans le domaine de la recherche et promet d’accélérer les découvertes scientifiques à une échelle sans précédent.

Avec une puissance de calcul atteignant près de 5 exaflops, le SCR est capable d’effectuer un quintillion de calculs par seconde. Pour mieux comprendre cette prouesse, il faudrait effectuer un calcul chaque seconde pendant plus de 31 milliards d’années pour égaler ce que le SCR peut réaliser en une seule seconde. Cette performance remarquable est rendue possible grâce à l’utilisation de 2 000 systèmes NVIDIA DGX A100 comme nœuds de calcul, totalisant 16 000 GPU NVIDIA A100 Tensor Core, tous connectés via un réseau en tissu NVIDIA Quantum InfiniBand ultra-rapide de 16 Tb/s.

Le SCR se distingue également par sa fiabilité exceptionnelle en tant que grappe d’entraînement, ce qui permet à Meta de mener des recherches à grande échelle avec une rapidité inégalée. Les chercheurs de Meta peuvent désormais exécuter en continu des expériences complexes et obtenir des résultats plus rapidement que jamais auparavant. Cette capacité d’accélération ouvre la voie à des avancées majeures dans de nombreux domaines de recherche.

Afin d’illustrer sa polyvalence, Meta met en avant quelques-uns des projets qui bénéficient de cette puissance de calcul prodigieuse.

No Language Left Behind et Universal Speech Translator, pour éliminer les barrières du langage

Des milliers de langues ne sont pas prises en compte par les systèmes IA de traduction automatique : plus de 20% de la population mondiale ne peut y recourir à partir de sa langue natale. La rareté des données pour ces langues est un obstacle, car l’apprentissage se fait généralement à partir de millions de phrases. Quant à la traduction directe orale, le défi est encore plus ardu.

Le RSC permet à Meta de renforcer son engagement à éliminer les barrières linguistiques et à favoriser une communication plus fluide et inclusive à l’échelle mondiale. Les progrès réalisés dans ces 2 projets ouvrent la voie à un avenir où la langue ne sera plus un obstacle à la compréhension mutuelle et à l’accès à l’information.

No Language Left Behind (NLLB) est une avancée révolutionnaire dans le domaine de la traduction automatique. Grâce au SRC de Meta, le modèle de traduction NLLB-200 de FAIR, qui traduit dans 200 langues, a pu être développé.

La capacité du SCR a permis de réduire les temps d’entraînement d’un mois à seulement sept à dix jours, ce qui s’est traduit par une meilleure précision et qualité du modèle. Le grand nombre de GPU et les performances du réseau ont permis d’exécuter davantage d’itérations et d’améliorer rapidement l’ajustement du modèle avant de partager publiquement les détails de NLLB.

Universal speech translator

L’IA a permis d’énormes avancées dans le domaine de la traduction, mais jusqu’à présent, une grande partie de ces progrès s’est concentrée sur les langues disposant d’une riche histoire de textes écrits. Meta a voulu explorer comment l’IA pourrait aider à créer des traductions pour une langue principalement parlée et sans système d’écriture standardisé.

Les chercheurs ont ainsi utilisé le SuperCluster de Recherche pour former le tout premier système de traduction alimenté par l’IA pour une langue principalement orale, en l’occurrence le Hokkien, qui, bien que largement parlé au sein de la diaspora chinoise, ne possède pas de forme écrite standardisée. Les outils de traduction automatique traditionnels s’appuient sur du texte écrit pour l’entraînement, Meta a dû explorer des techniques alternatives en utilisant des sources telles que Wikipedia, de crawlers Internet publics, de téléchargements de livres Gutenburg… le plus souvent en anglais.

En exploitant la puissance de calcul du RSC, le temps de pré-entraînement des modèles a pu être réduit de moitié, rendant le processus de développement plus efficace.

LLAMA

Les LLM sont formés sur un grand nombre de données linguistiques afin de prédire le prochain mot d’une phrase. Ils ont démontré leurs capacités à effectuer d’autres tâches de traitement du langage naturel, que ce soit pour résumer des textes ou en générer, les traduire, ils ont également réussi à prédire des structures protéiques et à résoudre des problèmes en mathématiques…

Le RSC a été utilisé pour entraîner LLaMA (Large Language Model Meta AI), un modèle de langage de base de 65 Mds de paramètres dont META a partagé la version restreinte à la communauté de recherche dans le cadre de son engagement envers l’open science.

L’objectif de la société était de fournir un accès à un modèle plus petit et plus performant que les chercheurs pourraient étudier et affiner pour des tâches spécifiques sans avoir besoin de matériel informatique important.

LLAMA est disponible en plusieurs tailles (paramètres 7B, 13B, 33B et 65B). La version de LLaMA aux 13 milliards de paramètres surpasserait GPT-3, malgré ses 175 milliards de paramètres, sur la plupart des benchmarks.

Les modèles de base sont entraînés sur de grands ensembles de données non étiquetées, les modèles plus petits formés sur plus de jetons, en l’occurrence des morceaux de mots ou des nombres, sont plus faciles à recycler et à affiner pour des cas d’utilisations spécifiques. LLaMA 65B et LLaMA 33B ont ainsi été entraînés sur 1,4 billion de jetons, tandis que le plus petit modèle, LLaMA 7B l’a été sur un billion.

Un aspect important de ces modèles est leur capacité à traiter rapidement les jetons : LLaMA 65B, a été entraîné sur 2 048 GPU NVIDIA A100 en seulement 21 jours et traite 380 jetons/seconde par GPU.

Theorem proving

Grâce aux avancées de l’IA et des réseaux neuronaux, des approches basées sur l’apprentissage automatique appelées “prouveurs de théorèmes neuronaux” ont été explorées pour prouver des énoncés mathématiques.

Enseigner à l’IA la résolution de problèmes mathématiques avancés est une étape importante vers la construction de machines intelligentes. En utilisant HyperTree Proof Search (HTPS), META à entraîné un prouveur de théorèmes neuronal sur un ensemble de données de preuves mathématiques réussies, dans le but de créer un système capable de résoudre des problèmes de l’Olympiade Internationale de Mathématiques (IMO).

La capacité du RSC lui a là aussi permis d’accélérer l’entraînement : l’échelle de l’entraînement a été augmentée à 2 000 GPU, ce qui a permis à META de terminer le projet considérablement en avance sur le calendrier. Le système peut résoudre 10 problèmes de l’IMO, soit 5 fois plus que tout autre système d’IA précédent.

Conformément à son approche de la science ouverte, Meta a publié le modèle via le plugin Lean Visual Studio Code (VSCode) et partagé des détails supplémentaires dans un article de recherche.

Grâce à la puissance du SuperCluster de Recherche de Meta, ces projets et de nombreux autres peuvent avancer à pas de géant, ouvrant la voie à de nouvelles découvertes et à des avancées scientifiques révolutionnaires. Meta continue d’investir dans la recherche pour repousser les limites de l’IA et offrir des solutions innovantes pour résoudre les défis complexes auxquels nous sommes confrontés.