Mientras que el rendimiento de los LLMs acapara los titulares de los medios, los modelos de codificador siguen siendo componentes fundamentales del PLN y figuran entre los más descargados en Hugging Face. Desarrollada gracias a una colaboración entre el laboratorio MICS de CentraleSupélec, Diabolocom, Artefact y Unbabel, la suite de codificadores de código abierto EuroBERT representa un avance significativo en el campo del PLN multilingüe, combinando soberanía, transparencia y rendimiento.
EuroBert, desarrollado en el marco de tres tesis en curso, está disponible en tres tamaños (210 millones, 610 millones y 2,1 mil millones de parámetros). Se inspira estrechamente en la arquitectura de Llama 3 y ha sido entrenado en un corpus de 5.000 billones de tokens (es decir, el doble que los codificadores clásicos), incluyendo conjuntos de datos multilingües, de código y de matemáticas.
El pipeline de entrenamiento incluye dos fases: la preformación y la fase de ajuste, y utiliza el objetivo de modelado de lenguaje enmascarado (MLM).
Soporta ocho lenguas europeas principales (inglés, francés, alemán, español, italiano, neerlandés, portugués y polaco) y siete lenguas extraeuropeas (chino, ruso, japonés, vietnamita, árabe, turco e hindi).
Una ventaja importante de EuroBERT reside en su capacidad para gestionar de forma nativa secuencias de hasta 8.192 tokens, mientras que los modelos de codificador clásicos como BERT y sus variantes (como RoBERTa) están generalmente limitados a secuencias de 512 tokens, lo que puede fragmentar la comprensión del texto. Esta longitud de contexto extendida refuerza la precisión de los análisis, incluso para las tareas de PLN más complejas.

Aplicaciones diversas

Las capacidades de EuroBERT lo posicionan como un componente esencial para:
  • Búsqueda de información y extracción de texto: su eficacia en la detección y clasificación de documentos abre perspectivas para empresas en busca de optimización de sus flujos de información;
  • El procesamiento del lenguaje técnico y científico: su entrenamiento avanzado le permite comprender y analizar mejor textos complejos, especialmente en matemáticas y programación;
  • La traducción y resumen automáticos: compite con las soluciones de vanguardia existentes, garantizando una precisión adaptada a las lenguas europeas.

Una colaboración público-privada fructífera

Este proyecto ha sido apoyado por los doctorandos cifre Nicolas Boizard, Hippolyte Gisserot-Boukhlef y Duarte Alves, bajo la dirección de Pierre Colombo, Céline Hudelot, y André Martins. Además de los equipos del MICS, del IST, de Diabolocom, de Artefact y de Unbabel, ha recibido el apoyo de equipos de la Universidad Grenoble Alpes, del CNRS, del LISN (Laboratorio Interdisciplinario de Ciencias de lo Digital), de Illuin Technology, del IRT Saint-Exupéry y del CINES. El artículo dedicado a sus trabajos está disponible en https://arxiv.org/abs/2503.05500.
Entrenado en el supercomputador Adastra de Genci, EuroBERT abre perspectivas estratégicas para las empresas y la investigación. Más allá de un avance técnico, ilustra la capacidad de Europa para innovar y desarrollar soluciones de IA soberanas.
Totalmente de código abierto, está disponible bajo licencia Apache 2.0 en https://huggingface.co/EuroBERT