Alibaba a annoncé le 21 juillet dernier sur X la publication de la dernière mise à jour de son LLM Qwen 3 : Qwen3-235B-A22B-Instruct-2507. Le modèle open source, distribué sous licence Apache 2.0, compte 235 milliards de paramètres et se présente comme un sérieux concurrent pour DeepSeek‑V3, Claude Opus 4 d'Anthropic, GPT-4o d'OpenAI ou Kimi 2 lancé récemment par la start-up chinoise Moonshot, quatre fois plus grand.
Alibaba Cloud précise dans son post :
"Après avoir discuté avec la communauté et réfléchi à la question, nous avons décidé d'abandonner le mode de pensée hybride. Nous entraînerons désormais les modèles Instruct et Thinking séparément afin d'obtenir la meilleure qualité possible".
Qwen3-235B-A22B-Instruct-2507 est un modèle non-réfléchi, (non-thinking), c’est-à-dire qu’il n’opère pas de raisonnement complexe en chaîne mais privilégie la rapidité et la pertinence dans l’exécution des instructions.
Grâce à cette orientation stratégique, Qwen 3 ne se contente pas de progresser dans le suivi d’instructions mais affiche également des avancées en raisonnement logique, en compréhension fine de domaines spécialisés, en traitement de langues peu courantes, ainsi qu’en mathématiques, sciences, programmation et interaction avec des outils numériques.
Dans les tâches ouvertes, impliquant jugement, tonalité ou création, il s’ajuste mieux aux attentes utilisateur, avec des réponses plus utiles et un style de génération plus naturel.
Sa fenêtre contextuelle, portée à 256 000 tokens, a été multipliée par huit, ce qui lui permet de traiter désormais des documents volumineux.
Une architecture orientée flexibilité et efficience
Le modèle repose sur une architecture Mixture-of-Experts (MoE) comptant 128 experts spécialisés, dont 8 sont sélectionnés en fonction de la demande : sur ses 235 milliards de paramètres, seuls 22 milliards sont ainsi activés par requête.
Il s'appuie sur 94 couches de profondeur, un schéma GQA (Grouped Query Attention) optimisé : 64 têtes pour la requête (Q) et 4 pour les clés/valeurs.
Performances de Qwen3‑235B‑A22B‑Instruct‑2507
La nouvelle version affiche des résultats compétitifs, voire supérieurs, aux modèles des leaders concurrents, notamment en mathématiques, codage et raisonnement logique.

En connaissances générales, il a obtenu un score de 83,0 sur MMLU-Pro (contre 75,2 pour la version précédente) et 93,1 sur MMLU-Redux, se rapprochant du niveau de Claude Opus 4 (94,2).
En raisonnement avancé, il a atteint un score très élevé dans la modélisation mathématique : 70,3 sur AIME (American Invitational Mathematics Examination) 2025, dépassant les scores de 46,6 de DeepSeek-V3-0324 et de 26,7 de GPT-4o-0327 d’OpenAI.
En codage, son score de 87,9 sur MultiPL‑E, le positionne derrière Claude (88,5), mais devant GPT-4o et DeepSeek . Sur LiveCodeBench v6, il atteint 51,8, soit la meilleure performance mesurée sur ce benchmark.
Version quantifiée en FP8 : optimisation sans compromis
En même temps que Qwen3-235B-A22B-Instruct-2507, Alibaba a publié sa version quantifiée en FP8. Ce format numérique compressé réduit drastiquement les besoins mémoire et accélère l’inférence, ce qui permet au modèle de fonctionner dans les environnements où les ressources sont limitées, et ce, sans entraîner de perte significative de performance.