Mentre le prestazioni degli LLM sono al centro dei media, i modelli di encoder rimangono componenti fondamentali del NLP e si trovano tra i più scaricati su Hugging Face. Sviluppato grazie a una collaborazione tra il laboratorio MICS di CentraleSupélec, Diabolocom, Artefact e Unbabel, la suite di encoder open source EuroBERT rappresenta un significativo avanzamento nel campo del NLP multilingue, combinando sovranità, trasparenza e prestazioni.
EuroBert, sviluppato nel contesto di tre tesi in corso, è disponibile in tre dimensioni (210 milioni, 610 milioni e 2,1 miliardi di parametri). Si ispira strettamente all'architettura di Llama 3 ed è stato addestrato su un corpus di 5000 miliardi di token (ossia il doppio rispetto agli encoder classici), includendo set di dati multilingue, di codice e di matematica.
Il pipeline di addestramento comprende due fasi: la pre-formazione e la fase di affinamento, e utilizza l'obiettivo di modellazione del linguaggio mascherato (MLM).
Supporta otto lingue europee principali (inglese, francese, tedesco, spagnolo, italiano, olandese, portoghese e polacco) e sette lingue extra-europee (cinese, russo, giapponese, vietnamita, arabo, turco e hindi).
Un vantaggio principale di EuroBERT risiede nella sua capacità di gestire nativamente sequenze fino a 8.192 token, mentre modelli di encoder classici come BERT e le sue varianti (come RoBERTa) sono generalmente limitati a sequenze di 512 token, il che può frammentare la comprensione del testo. Questa lunghezza di contesto estesa rafforza la precisione delle analisi, anche per i compiti NLP più complessi.

Applicazioni variegate

Le capacità di EuroBERT lo posizionano come un elemento essenziale per:
  • La ricerca di informazioni ed estrazione di testo: la sua efficacia nel reperire e classificare documenti apre prospettive per le aziende in cerca di ottimizzazione dei loro flussi di informazione;
  • Il trattamento del linguaggio tecnico e scientifico: il suo addestramento avanzato gli permette di comprendere e analizzare meglio testi complessi, in particolare in matematica e programmazione;
  • La traduzione e il riassunto automatico: compete con le soluzioni all'avanguardia esistenti, garantendo al contempo una precisione adeguata alle lingue europee.

Una collaborazione pubblico-privata fruttuosa

Questo progetto è stato portato avanti dai dottorandi cifre Nicolas Boizard, Hippolyte Gisserot-Boukhlef e Duarte Alves, sotto la guida di Pierre Colombo, Céline Hudelot, e André Martins. Oltre ai team del MICS, dell'IST, di Diabolocom, di Artefact e di Unbabel, ha ricevuto il supporto di team dell'Università Grenoble Alpes, del CNRS, del LISN (Laboratorio Interdisciplinare delle Scienze del Digitale), di Illuin Technology, dell'IRT Saint-Exupéry e del CINES. L'articolo dedicato ai loro lavori è disponibile su https://arxiv.org/abs/2503.05500.
Addestrato sul supercomputer Adastra di Genci, EuroBERT apre prospettive strategiche per le aziende e la ricerca. Oltre ad un avanzamento tecnico, illustra la capacità dell'Europa di innovare e sviluppare soluzioni di IA sovrane.
Totalmente open source, è disponibile sotto licenza Apache 2.0 su https://huggingface.co/EuroBERT