LLM'lerin performansları medyanın gündemindeyken, kodlayıcı modeller NLP'nin temel yapı taşları olarak kalmakta ve Hugging Face'de en çok indirilenler arasında yer almaktadır. CentraleSupélec'teki MICS laboratuvarı, Diabolocom, Artefact ve Unbabel arasındaki işbirliği sayesinde geliştirilen açık kaynak kodlayıcılar serisi EuroBERT , çok dilli NLP alanında önemli bir ilerlemeyi temsil etmekte, egemenlik, şeffaflık ve performansı bir araya getirmektedir.
Üç devam eden doktora tezi kapsamında geliştirilen EuroBert, üç boyutta mevcuttur (210 milyon, 610 milyon ve 2,1 milyar parametre). Llama 3 mimarisinden yakından ilham almış olup, çok dilli veri kümeleri, kod ve matematik içeren 5000 milyar tokenlik bir corpus üzerinde eğitilmiştir (klasik kodlayıcılardan iki kat fazla).
Eğitim hattı iki aşamadan oluşur: ön eğitim ve ayarlama aşaması ve maskelenmiş dil modelleme (MLM) hedefini kullanır.
Sekiz büyük Avrupa dilini (İngilizce, Fransızca, Almanca, İspanyolca, İtalyanca, Hollandaca, Portekizce ve Lehçe) ve yedi Avrupa dışı dili (Çince, Rusça, Japonca, Vietnamca, Arapça, Türkçe ve Hintçe) desteklemektedir.
EuroBERT'in önemli bir avantajı, klasik kodlayıcı modeller olan BERT ve türevleri (RoBERTa gibi) genellikle 512 token ile sınırlıyken, doğal olarak 8.192 token uzunluğundaki dizileri yönetme kapasitesidir, bu da metin anlayışını bölebilir. Bu genişletilmiş bağlam uzunluğu, en karmaşık NLP görevleri için bile analizlerin doğruluğunu artırır.
Çeşitli Uygulamalar
EuroBERT'in yetenekleri onu şu alanlarda temel bir yapı taşı yapmaktadır:
- Bilgi arama ve metin çıkarımı : belgelerin tespiti ve sınıflandırılmasındaki etkinliği, bilgi akışlarını optimize etmek isteyen şirketler için fırsatlar sunar;
- Teknik ve bilimsel dil işleme : ileri düzeydeki eğitimi, özellikle matematik ve programlamada karmaşık metinleri daha iyi anlama ve analiz etme yeteneği sağlar;
- Otomatik çeviri ve özetleme : mevcut ileri çözümlerle rekabet ederken, Avrupa dillerine uygun bir doğruluk garanti eder.
Kamu-Özel Sektör İşbirliğinden Doğan Başarı
Bu proje, cifre doktora öğrencileri Nicolas Boizard, Hippolyte Gisserot-Boukhlef ve Duarte Alves tarafından, Pierre Colombo, Céline Hudelot ve André Martins rehberliğinde yürütülmüştür. MICS, IST, Diabolocom, Artefact ve Unbabel ekiplerinin yanı sıra, Grenoble Alpes Üniversitesi, CNRS, LISN (Laboratoire Interdisciplinaire des Sciences du Numérique), Illuin Technology, IRT Saint-Exupéry ve CINES ekipleri tarafından desteklenmiştir. Çalışmalarına adanmış makale https://arxiv.org/abs/2503.05500 adresinde mevcuttur.
Genci'nin Adastra süper bilgisayarı üzerinde eğitilen EuroBERT, işletmeler ve araştırma için stratejik fırsatlar açmaktadır. Teknik bir ilerlemenin ötesinde, Avrupa'nın yenilik yapma ve egemen yapay zeka çözümleri geliştirme kapasitesini göstermektedir.
Tamamen açık kaynak olan bu yazılım, Apache 2.0 lisansı altında https://huggingface.co/EuroBERT adresinde mevcuttur.