Alors que les performances des LLMs font la une des médias, les modèles à encodeur restent des briques fondamentales du NLP et figurent parmi les plus téléchargés sur Hugging Face. Développée grâce à une collaboration entre le laboratoire MICS de CentraleSupélec, Diabolocom, Artefact et Unbabel, la suite d'encodeurs open source EuroBERT représente une avancée significative dans le domaine du NLP multilingue, combinant souveraineté, transparence et performance.
EuroBert, développé dans le cadre des trois thèses en cours, est disponible en trois tailles (210 millions, 610 millions et 2,1 milliards de paramètres). Il s'inspire étroitement de l'architecture de Llama 3 et a été entraîné sur un corpus de 5000 milliards de tokens (soit deux fois plus que les encodeurs classiques), incluant des ensembles de données multilingues, de code et de mathématiques.
Le pipeline d'entraînement comprend deux phases : la préformation et la phase d'ajustement, et utilise l'objectif de modélisation de langage masqué (MLM).
Il prend en charge huit langues européennes majeures (anglais, français, allemand, espagnol, italien, néerlandais, portugais et polonais) et sept langues extra-européennes (chinois, russe, japonais, vietnamien, arabe, turc et hindi).
Un atout majeur d’EuroBERT réside dans sa capacité à gérer nativement des séquences allant jusqu’à 8 192 jetons, alors que des modèles à encodeur classiques comme BERT et ses variantes (comme RoBERTa) sont généralement limités à des séquences de 512 tokens, ce qui peut fragmenter la compréhension du texte. Cette longueur de contexte étendue renforce la précision des analyses, même pour les tâches NLP les plus complexes.
Des applications variées
Les capacités d’EuroBERT le positionnent comme une brique essentielle pour :
-
La recherche d’information et extraction de texte : son efficacité dans le repérage et la classification de documents ouvre des perspectives pour les entreprises en quête d'optimisation de leurs flux d'information ;
-
Le traitement du langage technique et scientifique : son entraînement poussé lui permet de mieux comprendre et analyser des textes complexes, en particulier en mathématiques et en programmation ;
-
La traduction et le résumé automatique : il rivalise avec les solutions de pointe existantes, tout en garantissant une précision adaptée aux langues européennes.
Une collaboration public-privé fructueuse
Ce projet a été porté par les doctorants cifre Nicolas Boizard, Hippolyte Gisserot-Boukhlef et Duarte Alves, sous la houlette de Pierre Colombo, Céline Hudelot, et André Martins. Outre les équipes du MICS, de l’IST, de Diabolocom, d’Artefact et d’Unbabel, il a reçu le soutien d'équipes de l’Université Grenoble Alpes, du CNRS, du LISN (Laboratoire Interdisciplinaire des Sciences du Numérique), d’Illuin Technology, de l’IRT Saint-Exupéry et du CINES. L'article consacré à leurs travaux est disponible sur https://arxiv.org/abs/2503.05500 .
Entraîné sur le supercalculateur Adastra de Genci, EuroBERT ouvre des perspectives stratégiques pour les entreprises et la recherche. Au-delà d'une avancée technique, il illustre la capacité de l’Europe à innover et à développer des solutions d'IA souveraines.
Totalement open source, il est disponible sous licence Apache 2.0 sur https://huggingface.co/EuroBERT