Focus sur “Big Science”, le projet collaboratif pour le développement d’un modèle de langues open source efficace

Dans le but de développer un modèle de langues multilingue open source efficace en un an, plusieurs laboratoires, grands groupes et start-ups se sont réunis. Ils utiliseront le supercalculateur français Jean Zay afin de mener à bien le projet “Big Science”. L’objectif principal est de concevoir un réseau géant de neurones capable de “parler” huit langues dont le français, l’anglais et plusieurs langues africaines. L’atelier kick-off a eu lieu fin avril et nous vous proposons un focus sur ce projet participatif très intéressant.

Un projet mettant à contribution une centaine d’institutions

Le “Summer of Language Models 21” ou “Big Science” est un projet de recherche d’une durée d’un an axé sur les modèles de langage utilisés et étudiés dans le domaine du traitement du langage naturel (NLP). Plus de 250 chercheurs, issus d’une centaine d’institutions comme le CNRS, Inria, Airbus, Ubisoft, Facebook, Systran, Ubisoft, Airbus, OVH, ainsi que plusieurs universités françaises ou étrangères, y  contribuent.

Le projet est né de discussions initiées début 2021 entre Thomas Wolf (Hugging Face), Stéphane Requena et Pierre-François Lavallee (respectivement de GENCI et IDRIS). Très rapidement, plusieurs experts de l’équipe scientifique de HuggingFace (composé notamment de Victor Sanh et Yacine Jernite) ainsi que des membres de la communauté de recherche académique et industrielle française en IA et NLP se sont joints aux discussions pour approfondir le projet.

Big Science se définit ainsi comme un atelier de recherche d’un an où un ensemble de tâches collaboratives seront à réaliser autour de la création d’un grand ensemble de données issues d’une grande variété de langues et d’un modèle de langage multilingue efficace.

L’utilisation du supercalculateur français Jean Zay dans un projet collaboratif

GENCI et IDRIS ont souhaité prendre part au projet en proposant l’utilisation du supercalculateur Jean Zay, installé à Orsay. Les deux institutions ont mis à disposition 5 millions d’heures de calcul (environ 208 jours), ce qui correspond au quart des capacités de la machine.

En parallèle, un atelier à destination du public sera réalisé en ligne les 21 et 22 mai prochains, avec la réalisation de tâches collaboratives visant à créer, partager, et évaluer une immense base de données multilingues afin de commencer à concevoir le modèle. Des discussions seront menées afin de cerner les enjeux des grands modèles linguistiques et de mieux comprendre leur fonctionnement.

En cas de réussite, cet atelier pourra être reconduit et mis à jour en fonction de l’avancement du projet qui se veut participatif.

Le fonctionnement du projet “Big Science”

Ce programme de recherche sera composé :

  • D’un comité de pilotage qui donnera des avis scientifiques ou généraux.
  • D’un comité d’organisation, divisé en plusieurs groupes de travail qui auront la charge de déterminer et réaliser les tâches collaboratives, ainsi que d’organiser des ateliers et autres évènements permettant la création de l’outil NLP.

Plusieurs rôles seront donnés dans le cadre de ce projet, trois sont réservés aux chercheurs et experts, le dernier implique la participation du public :

  • Un rôle de conseiller scientifique et d’organisation fonctionnelle : une tâche qui demande un engagement léger, à savoir lire une newsletter toutes les deux semaines et proposer ses commentaires dans le cadre d’un groupe de travail.
  • Un rôle de membre actif d’un des groupes de travail du projet : conception et mise en place des tâches collaboratives, organisation d’évènements en direct.
  • Un rôle de président/co-président d’un groupe de travail : qui demande un engagement beaucoup plus important, il coordonne les efforts et organise le processus de décision du groupe de travail.
  • Un rôle de participant à l’atelier ou à un évènement public : participation dans la réalisation d’une tâche collective de manière guidée en suivant les directives mises en place par les groupes de travail.

La solution développée dans le cadre de ce projet souhaite être plus aboutie et moins “biaisée” que celles développées par OpenAI et Google. Le GPT-3 d’OpenAI débite 4,5 milliards de mots par jours pour environ 300 clients, contient 570 Go de textes (745 Go pour Switch-C, l’outil de Google) et 175 milliards de paramètres (10 fois plus chez Google).