C’est sur X que Mistral AI a choisi d’annoncer Pixtral 12B, à l’aide d’un lien magnet Torrent. Ce premier LLM multimodal de la jeune licorne qui peut traiter à la fois le texte et les images est disponible sur GitHub et Hugging Face. Il peut être téléchargé, affiné et utilisé sous la licence open source Apache 2.0 qui permet son utilisation pour la recherche ainsi que le développement commercial.
Les 12 milliards de paramètres de Pixtral, basé sur Mistral Nemo 12B présenté en juillet dernier par la start-up avec NVIDIA, sont répartis sur 40 couches, lui conférant une grande capacité de traitement des données textuelles et visuelles.
Pixtral 12B intègre un adaptateur de vision de 400 millions de paramètres, ce qui permet aux utilisateurs de soumettre des images via des URL ou encodées en base64,un schéma d’encodage binaire-texte. Il peut gérer des images de haute résolution (1024 x 1024 pixels), découpées en patchs de 16 x 16 pixels pour une analyse détaillée. En outre, le modèle peut également reconnaître et traiter plus de 131 000 jetons, cette taille de vocabulaire étendue permet une plus grande flexibilité dans la gestion des données textuelles.
Grâce à ces caractéristiques, Pixtral 12B peut générer des descriptions textuelles détaillées à partir d'images et est particulièrement efficace pour des tâches telles que le sous-titrage d'images, la classification d'images, ou encore le comptage d'objets dans une scène visuelle.
Open source : Mistral AI annonce Pixtral 12B, son premier LLM multimodal
Acteurs cités
Sur le même sujet
L'Hebdo ActuIA
Inscription confirmée, à très vite !