Mistral AI annonce deux nouveaux modèles open source : Codestral Mamba 7B et Mathstral 7B

Mistral AI a annoncé ce 16 juillet dernier deux nouveaux LLM publiés sous licence Apache 2.0 : Codestral Mamba 7B et Mathstral 7B. Le premier utilise la nouvelle architecture Mamba introduite fin 2023 par les chercheurs de renom Albert Gu et Tri Dao, et est destiné à la génération de code comme son prédécesseur Codestral. Mathstral, basé sur Mistral 7B, est un modèle spécialisé dans les tâches mathématiques et scientifiques, développé dans le cadre de la collaboration de Mistral AI avec le Projet Numina.

Codestral Mamba 7B : une architecture innovante

Codestral Mamba se distingue par une approche radicalement différente de celle des modèles Transformer traditionnels. Mistral AI explique :

Contrairement aux modèles Transformer, les modèles Mamba offrent l’avantage de l’inférence temporelle linéaire et la capacité théorique de modéliser des séquences de longueur infinie. Ils permettent aux utilisateurs d’interagir de manière approfondie avec le modèle avec des réponses rapides, quelle que soit la longueur d’entrée. Cette efficacité est particulièrement pertinente pour les cas d’utilisation de la productivité du code. C’est pourquoi nous avons formé ce modèle avec des capacités avancées de code et de raisonnement, lui permettant d’être aussi performant que les modèles basés sur les transformateurs SOTA”.

Performances du modèle

Codestral Mamba a été soumis à des benchmarks détaillés, testant sa capacité de récupération contextuelle jusqu’à 256 000 jetons. Les résultats confirment son potentiel en tant qu’assistant de code local et sa capacité à gérer des tâches complexes.

Le modèle a démontré des performances supérieures aux modèles open source concurrents CodeLlama 7B, CodeGemma-1.17B et DeepSeek dans les tests HumanEval.

Disponibilité

Codestral Mamba a été publié sous la licence Apache 2.0, offrant une liberté complète d’utilisation et de modification. Il est disponible à des fins de tests sur la plateforme de Mistral AI et sur Hugging Face, où il peut être déployé en utilisant le SDK mistral-inférence, qui s’appuie sur les implémentations de référence du dépôt GitHub de Mamba. Il peut également l’être sur TensorRT-LLM pour ceux qui préfèrent cette option de déploiement et bientôt sur llama.cpp pour l’inférence locale.

Mathstral 7B : une avancée dans les problèmes mathématiques complexes

Mathstral est une contribution significative de Mistral AI à la communauté scientifique, destinée à résoudre des problèmes mathématiques avancés nécessitant un raisonnement logique complexe et multi-étapes.

Basé sur Mistral 7B, disposant d’une fenêtre contextuelle de 32 000 jetons, Mathstral excelle dans les matières STEM, atteignant des performances de pointe dans sa catégorie. Il a obtenu 56,6 % sur MATH et 63,47 % sur MMLU.

Avec un calcul plus intensif au moment de l’inférence, le modèle peut atteindre des scores encore plus élevés : MATH avec vote majoritaire: 68,37%, MATH avec un modèle de récompense fort parmi 64 candidats: 74,59%.

Mathstral illustre les excellents compromis performance/vitesse obtenus en construisant des modèles pour des objectifs spécifiques, une philosophie que Mistral AI promeut activement. Les poids de Mathstral sont disponibles sur HuggingFace, et le modèle peut être utilisé tel quel ou affiné avec mistral-inference et mistral-finetune.

Recevez gratuitement l'actualité de l'intelligence artificielle

Suivez la Newsletter de référence sur l'intelligence artificielle (+ de 18 000 membres), quotidienne et 100% gratuite.


Tout comme vous, nous n'apprécions pas le spam. Vos coordonnées ne seront transmises à aucun tiers.
Partager l'article
Offre exclusive : 1 an d'abonnement au magazine ActuIA + Le guide pratique d'adoption de l'IA en entreprise pour seulement 27,60€ Boutique ActuIA Pour tout abonnement à ActuIA, recevez en cadeau le Guide Pratique d'Adoption de l'IA en Entreprise, d'une valeur de 23€ !
intelligence artificielle
À PROPOS DE NOUS
Le portail francophone consacré à l'intelligence artificielle et à la datascience, à destination des chercheurs, étudiants, professionnels et passionnés.