Während die Leistungen der LLMs die Schlagzeilen beherrschen, bleiben Encoder-Modelle grundlegende Bausteine des NLP und gehören zu den am häufigsten heruntergeladenen auf Hugging Face. Entwickelt durch eine Zusammenarbeit zwischen dem MICS-Labor von CentraleSupélec, Diabolocom, Artefact und Unbabel, stellt die Open-Source-Encoder-Suite EuroBERT einen bedeutenden Fortschritt im Bereich des mehrsprachigen NLP dar, indem sie Souveränität, Transparenz und Leistung kombiniert.
EuroBert, entwickelt im Rahmen von drei laufenden Dissertationen, ist in drei Größen erhältlich (210 Millionen, 610 Millionen und 2,1 Milliarden Parameter). Es orientiert sich eng an der Architektur von Llama 3 und wurde auf einem Korpus von 5000 Milliarden Tokens trainiert (doppelt so viel wie klassische Encoder), einschließlich mehrsprachiger Datensätze, Code und Mathematik.
Die Trainingspipeline umfasst zwei Phasen: die Vortraining- und die Anpassungsphase und verwendet das Ziel der maskierten Sprachmodellierung (MLM).
Es unterstützt acht wichtige europäische Sprachen (Englisch, Französisch, Deutsch, Spanisch, Italienisch, Niederländisch, Portugiesisch und Polnisch) und sieben außereuropäische Sprachen (Chinesisch, Russisch, Japanisch, Vietnamesisch, Arabisch, Türkisch und Hindi).
Ein wesentlicher Vorteil von EuroBERT liegt in seiner Fähigkeit, nativ Sequenzen von bis zu 8.192 Tokens zu verwalten, während klassische Encoder-Modelle wie BERT und seine Varianten (wie RoBERTa) im Allgemeinen auf Sequenzen von 512 Tokens begrenzt sind, was die Textverständnisfragmentierung verursachen kann. Diese erweiterte Kontextlänge verbessert die Präzision der Analysen, selbst für die komplexesten NLP-Aufgaben.

Verschiedene Anwendungen

Die Fähigkeiten von EuroBERT positionieren es als ein wesentliches Modul für:
  • Information Retrieval und Textextraktion: seine Effizienz bei der Erkennung und Klassifizierung von Dokumenten eröffnet Perspektiven für Unternehmen, die ihre Informationsflüsse optimieren wollen;
  • Die Verarbeitung technischer und wissenschaftlicher Sprache: sein intensives Training ermöglicht es, komplexe Texte, insbesondere in Mathematik und Programmierung, besser zu verstehen und zu analysieren;
  • Automatische Übersetzung und Zusammenfassung: es konkurriert mit bestehenden Spitzentechnologien und gewährleistet dabei eine Genauigkeit, die auf europäische Sprachen abgestimmt ist.

Eine erfolgreiche öffentlich-private Zusammenarbeit

Dieses Projekt wurde von den CIFRE-Doktoranden Nicolas Boizard, Hippolyte Gisserot-Boukhlef und Duarte Alves unter der Leitung von Pierre Colombo, Céline Hudelot und André Martins getragen. Neben den Teams von MICS, IST, Diabolocom, Artefact und Unbabel erhielt es Unterstützung von Teams der Université Grenoble Alpes, des CNRS, des LISN (Laboratoire Interdisciplinaire des Sciences du Numérique), von Illuin Technology, des IRT Saint-Exupéry und des CINES. Der Artikel zu ihren Arbeiten ist verfügbar auf https://arxiv.org/abs/2503.05500.
Trainiert auf dem Supercomputer Adastra von Genci eröffnet EuroBERT strategische Perspektiven für Unternehmen und die Forschung. Über einen technischen Fortschritt hinaus illustriert es die Fähigkeit Europas, zu innovieren und souveräne KI-Lösungen zu entwickeln.
Vollständig Open Source, ist es unter der Apache 2.0-Lizenz verfügbar auf https://huggingface.co/EuroBERT