Grok-1,5 arrive sur le chatbot d'xAI avec une longueur de contexte de 128 000 jetons

Après avoir dévoilé le chatbot Grok, le 1er produit développé par xAI, en novembre 2023, publié les les poids du modèle de fondation qui l’alimente, Grok-1, ainsi que son architecture le 17 mars dernier, Elon Musk et sa start-up annoncent Grok-1.5. Cette dernière version sera disponible pour de premiers testeurs et les utilisateurs existants de Grok sur la plateforme X dans les prochains jours.

La construction de Grok-1 avait nécessité une infrastructure solide, basée sur Kubernetes, Rust et JAX, pour assurer l’entraînement et l’inférence du modèle à grande échelle.

Le processus d’entraînement d’un modèle de langage nécessite une synchronisation complexe sur des milliers de GPU pendant des mois, ce qui avait été géré grâce à des systèmes distribués personnalisés. L’efficacité énergétique étant un objectif majeur, l’infrastructure avait été conçue pour minimiser les temps d’arrêt et maintenir un taux d’utilisation élevé des ressources de calcul.

L’utilisation de Rust a été cruciale pour garantir la fiabilité de l’infrastructure, ce qui était essentiel compte tenu de la petite taille de l’équipe de xAI. Rust offre des performances élevées, un écosystème riche, et minimise les erreurs potentielles.

Grok 1,5 est construit sur le même cadre d’entraînement. Si son prédécesseur compte 314 milliards de paramètres, xAI n’a pas précisé sa taille. Un des changements notables est la gestion d’une fenêtre contextuelle de 128 000 jetons alors que la version précédente n’en acceptait que 8 000. Cette capacité de mémoire étendue lui permet d’utiliser des informations provenant de documents beaucoup plus longs.

Des capacités de raisonnement avancées

Les performances de Grok 1 ont été particulièrement améliorées dans les tâches liées au codage et aux mathématiques. Lors des tests réalisés par xAI, Grok-1.5 a obtenu un score de 50,6 % sur le benchmark MATH et un score de 90 % sur le benchmark GSM8K, deux benchmarks mathématiques couvrant un large éventail de problèmes de compétition de l’école primaire au lycée. Sur GSM8K, il a surpassé Mistral Large et Claude 2 en 8 shots.

Sur le benchmark MMLU (Massive Multitask Language Understanding) qui utilise une combinaison de 57 matières telles que les mathématiques, la physique, l’histoire, le droit, la médecine et l’éthique pour tester à la fois les connaissances du monde et les capacités de résolution de problèmes, il les a également surpassés en 5 shots ainsi que Claude 3 Sonnet. Sur le benchmark HumanEval, qui évalue les capacités de génération de code et de résolution de problèmes, où il a obtenu un score de 74,1 %, il a surpassé les 3 modèles ainsi que Gemini Pro 1,5 et GPT-4 sans essai préalable (zéro shot).

xAI annonce qu’elle apportera de nouvelles fonctionnalités au modèle ces prochains jours et, de son côté, Elon Musk promet sur X un Grok 2 qui dépassera toutes les attentes.