Nouveau modèle

AI2 lance Tülu 3 405B : une avancée vers un nouveau standard de l'IA open source

Tülu 3 405B est un grand modèle open source publié par l'Allen Institute for Artificial Intelligence, basé sur Llama 3.1 et entraîné avec la méthode RLVR. Selon AI2, il dépasse DeepSeek V3, GPT-4o et autres incarnations 405B sur PopQA et GSM8K, et son entraînement a requis une infrastructure conséquente (256 GPU, optimisation NCCL).

MAMarie-Claude Benoit · · ·3 min
AI2 lance Tülu 3 405B : une avancée vers un nouveau standard de l'IA open source
Sommaire
Après avoir publié en décembre dernier sa famille de modèles OLMO 2, l’Allen Institute for Artificial Intelligence (AI2) poursuit son engagement envers l'open source avec le lancement de Tülu 3 405B. Basé sur Llama 3.1, exploitant le cadre d’apprentissage par renforcement à partir de récompenses vérifiables (RLVR) d'AI2, ce nouveau modèle atteint des performances compétitives ou supérieures à celles de DeepSeek V3 (sur lequel est basé DeepSeek R1) et GPT-4o, surpassant également les modèles post-entraînés précédents de même taille, comme Llama 3.1 405B Instruct et Hermes 3 405B de Nous Research.

Un post entraînement optimisé

La recette de post-entraînement de Tülu 3 405B est similaire à celle de ses prédécesseurs, Tülu 3 8B et 70B, publés par AI2 en novembre dernier. Elle inclut la curation minutieuse des données, la mise au point supervisée (SFT), l'optimisation directe des préférences (DPO) ainsi que le Reinforcement Learning with Verifiable Rewards (RLVR). Crédit image AI. Schéma décrivant le processus d’apprentissage par renforcement avec récompenses vérifiables (RLVR). Cette nouvelle méthode permet d’améliorer significativement les performances des modèles Tülu sur des tâches complexes comme la résolution de problèmes mathématiques et le suivi d'instructions. Fait intéressant, les résultats montrent que l’échelle du modèle influence positivement l’efficacité du RLVR : alors que les modèles plus petits bénéficient d’un entraînement sur des ensembles de données diversifiés, Tülu 3 405B obtient de meilleures performances en se concentrant sur des données plus spécialisées.

Performances du modèle

Selon les évaluations internes d'AI2, Tülu 3 405B surpasse DeepSeek V3, GPT-4o, et Llama 3.1 405B sur le benchmark PopQA, un ensemble de 14 000 paires de questions-réponses qui permet de vérifier l'efficacité des modèles dans la récupération et la génération d'informations précises. Le modèle a également obtenu les performances les plus élevées de tous les modèles de sa catégorie sur GSM8K, un ensemble de données composé d'environ 8 500 problèmes mathématiques de niveau scolaire créé par OpenAI, utilisé pour tester les capacités des modèles de langage à effectuer un raisonnement mathématique multi-étapes.

Enjeux techniques et défis d’implémentation

La mise à l'échelle du modèle n’a pas été sans défis. L'entraînement de Tülu 3 405B a nécessité une infrastructure considérable, avec 256 GPU déployés en parallèle. La gestion du parallélisme tensoriel et l’optimisation des hyperparamètres ont été des points clés, nécessitant un suivi rigoureux. L'’intégration de corrections pour la diffusion NCCL (NVIDIA Collective Communications Library, une bibliothèque open source qui permet de réduire les goulots d'étranglement liés aux échanges de données et améliore les performances globales du système) a cependant permis une synchronisation efficace des poids du modèle, réduisant ainsi les délais d’inférence et de mise à jour. Tülu 3 405B est un modèle véritablement ouvert, répondant aux critères stricts de l’OSAID, la définition de l’IA open source de l’OSI. Il peut être testé sur le site d’Ai2, est accessible sur Hugging Face et son code d'entraînement sur GitHub. Hébergé sur Google Cloud, le modèle sera prochainement disponible sur Vertex AI.
MA
Marie-Claude Benoit

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.

Acteurs cités
ALAllen Institute for Artificial Intelligence
HUHugging Face
GOGoogle Cloud
OPOpenAI
OSOSI
GIGithub
SOSociété française des traducteurs (SFT)
NVNvidia
L'Hebdo ActuIA

Inscription confirmée, à très vite !