Mentre le prestazioni degli LLM sono al centro dei media, i modelli di encoder rimangono componenti fondamentali del NLP e si trovano tra i più scaricati su Hugging Face. Sviluppato grazie a una collaborazione tra il laboratorio MICS di CentraleSupélec, Diabolocom, Artefact e Unbabel, la suite di encoder open source EuroBERT rappresenta un significativo avanzamento nel campo del NLP multilingue, combinando sovranità, trasparenza e prestazioni.
EuroBert, sviluppato nel contesto di tre tesi in corso, è disponibile in tre dimensioni (210 milioni, 610 milioni e 2,1 miliardi di parametri). Si ispira strettamente all'architettura di Llama 3 ed è stato addestrato su un corpus di 5000 miliardi di token (ossia il doppio rispetto agli encoder classici), includendo set di dati multilingue, di codice e di matematica.
Il pipeline di addestramento comprende due fasi: la pre-formazione e la fase di affinamento, e utilizza l'obiettivo di modellazione del linguaggio mascherato (MLM).
Supporta otto lingue europee principali (inglese, francese, tedesco, spagnolo, italiano, olandese, portoghese e polacco) e sette lingue extra-europee (cinese, russo, giapponese, vietnamita, arabo, turco e hindi).
Un vantaggio principale di EuroBERT risiede nella sua capacità di gestire nativamente sequenze fino a 8.192 token, mentre modelli di encoder classici come BERT e le sue varianti (come RoBERTa) sono generalmente limitati a sequenze di 512 token, il che può frammentare la comprensione del testo. Questa lunghezza di contesto estesa rafforza la precisione delle analisi, anche per i compiti NLP più complessi.
Applicazioni variegate
Le capacità di EuroBERT lo posizionano come un elemento essenziale per:
- La ricerca di informazioni ed estrazione di testo: la sua efficacia nel reperire e classificare documenti apre prospettive per le aziende in cerca di ottimizzazione dei loro flussi di informazione;
- Il trattamento del linguaggio tecnico e scientifico: il suo addestramento avanzato gli permette di comprendere e analizzare meglio testi complessi, in particolare in matematica e programmazione;
- La traduzione e il riassunto automatico: compete con le soluzioni all'avanguardia esistenti, garantendo al contempo una precisione adeguata alle lingue europee.
Una collaborazione pubblico-privata fruttuosa
Questo progetto è stato portato avanti dai dottorandi cifre Nicolas Boizard, Hippolyte Gisserot-Boukhlef e Duarte Alves, sotto la guida di Pierre Colombo, Céline Hudelot, e André Martins. Oltre ai team del MICS, dell'IST, di Diabolocom, di Artefact e di Unbabel, ha ricevuto il supporto di team dell'Università Grenoble Alpes, del CNRS, del LISN (Laboratorio Interdisciplinare delle Scienze del Digitale), di Illuin Technology, dell'IRT Saint-Exupéry e del CINES. L'articolo dedicato ai loro lavori è disponibile su https://arxiv.org/abs/2503.05500 .
Addestrato sul supercomputer Adastra di Genci, EuroBERT apre prospettive strategiche per le aziende e la ricerca. Oltre ad un avanzamento tecnico, illustra la capacità dell'Europa di innovare e sviluppare soluzioni di IA sovrane.
Totalmente open source, è disponibile sotto licenza Apache 2.0 su https://huggingface.co/EuroBERT