Alliance stratégique

DeepSeek annonce une mise à jour plus puissante de son modèle DeepSeek v3

DeepSeek a publié discrètement DeepSeek-V3-0324, une mise à jour open source (licence MIT) de son modèle V3 optimisée pour les mathématiques et la programmation, disponible sur Hugging Face et entraînée sur un cluster de 32 000 GPUs. Avec 685 milliards de paramètres, une architecture Mixture-of-Experts et la Multi-head Latent Attention pour réduire les besoins mémoire, la version renforce les capacités techniques du modèle et suscite des questions sur la provenance des puces Nvidia et la trajectoire vers un éventuel DeepSeek R2.

PIPierre-yves Gerlat · · ·2 min
DeepSeek annonce une mise à jour plus puissante de son modèle DeepSeek v3
Sommaire
La start-up chinoise DeepSeek a lancé discrètement DeepSeek-V3-0324, une mise à jour de son modèle open source éponyme DeepSeek-V3. Cette nouvelle version, dont les capacités en mathématiques et programmation ont été optimisées, pourrait préfigurer DeepSeek R2, dont la sortie est attendue prochainement. Le modèle, publié sous licence MIT, l'une des plus permissives, est disponible sur Hugging Face.
 
Ce lancement n'a été accompagné d'aucun communiqué de la start-up créée en mai 2023 à Hangzhou, dirigée par Liang Wenfeng et filiale du fonds spéculatif High-Flyer.
 
Alors que DeepSeek-V3, compte 671 milliards de paramètres, DeepSeek-V3-0324 en affiche 685 milliards et est alimenté par un cluster de 32 000 GPUs, ce qui en fait l'un des modèles open source les plus puissants de sa catégorie. Il s'appuie sur une architecture Mixture-of-Experts développée pour ses prédécesseurs, DeepSeekMoE, composée comme son nom l'indique, de divers experts spécialisés. Ces derniers sont activés selon les besoins spécifiques des requêtes grâce à un mécanisme de routage intelligent, ce qui permet au modèle de gérer efficacement une variété de tâches tout en réduisant la charge computationnelle.
 
Il devrait adopter également leur architecture innovante Multi-head Latent Attention (Attention Latente Multi-têtes ou MLA), une approche qui permet de compresser de manière conjointe les clés et les valeurs d'attention, diminuant ainsi la taille du cache Key-Value (KV) pendant l'inférence, réduisant l’utilisation de la mémoire tout en améliorant l'efficacité du traitement.
 
Si DeepSeek présente cette version comme une mise à jour mineure de DeepSeek V3 sur X, les premiers commentaires, quelques heures à peine après le lancement, soulignent de réelles avancées, notamment en mathématiques et programmation.

Les performances de DeepSeek continuent d'alimenter les spéculations. Le modèle DeepSeek R1, le premier modèle de raisonnement de la startup, basé sur V3, et dont les capacités de raisonnement avancées avaient surpris les experts avec des coûts d'entraînement et d'utilisation, nettement inférieurs à ceux de ses concurrents américains, avaient réussi à perturber Wall Street.
 
Selon un article publié par La Tribune hier, les Etats-Unis veulent trouver une explication au "mystère DeepSeek" dans une possible contrebande de puces Nvidia. Aucune hypothèse technique n'est à écarter, mais ce serait une erreur de ne pas voir en DeepSeek un nouvel acteur de référence en IA Open Source, comme en atteste ce dépôt github extrêmement intéressant.
PI
Pierre-yves Gerlat

Rédaction ActuIA — actualités, données et analyses sur l'intelligence artificielle pour les décideurs.

Acteurs cités
DEDeepSeek
HUHugging Face
WAWall Street
ETEtats-Unis
NVNvidia
XX
L'Hebdo ActuIA

Inscription confirmée, à très vite !