DeepSeek annuncia un aggiornamento più potente del suo modello DeepSeek v3

La start-up cinese DeepSeek ha lanciato un aggiornamento del suo modello open source DeepSeek-V3, ottimizzando le capacità in matematica e programmazione. Il modello è disponibile su Hugging Face.

PIPierre-yves Gerlat ·25 mar 2025 ·Aggiornato il 19 apr 2025 ·2 min

La start-up cinese DeepSeek ha lanciato discretamente DeepSeek-V3-0324, un aggiornamento del suo modello open source eponimo DeepSeek-V3. Questa nuova versione, le cui capacità in matematica e programmazione sono state ottimizzate, potrebbe prefigurare DeepSeek R2, la cui uscita è attesa a breve. Il modello, pubblicato sotto licenza MIT, una delle più permissive, è disponibile su Hugging Face.

Questo lancio non è stato accompagnato da alcun comunicato della start-up creata a maggio 2023 a Hangzhou, diretta da Liang Wenfeng e filiale del fondo speculativo High-Flyer.

Mentre DeepSeek-V3, conta 671 miliardi di parametri, DeepSeek-V3-0324 ne presenta 685 miliardi ed è alimentato da un cluster di 32.000 GPU, rendendolo uno dei modelli open source più potenti della sua categoria. Si basa su un'architettura Mixture-of-Experts sviluppata per i suoi predecessori, DeepSeekMoE, composta come suggerisce il nome, da vari esperti specializzati. Questi ultimi sono attivati a seconda delle esigenze specifiche delle richieste grazie a un meccanismo di instradamento intelligente, permettendo al modello di gestire efficacemente una varietà di compiti riducendo il carico computazionale.

Dovrebbe adottare anche la loro architettura innovativa Multi-head Latent Attention (Attenzione Latente Multi-teste o MLA), un approccio che permette di comprimere congiuntamente le chiavi e i valori di attenzione, riducendo così la dimensione della cache Key-Value (KV) durante l'inferenza, diminuendo l'uso della memoria migliorando al contempo l'efficienza del trattamento.

Se DeepSeek presenta questa versione come un aggiornamento minore di DeepSeek V3 su X, i primi commenti, poche ore dopo il lancio, sottolineano reali avanzamenti, soprattutto in matematica e programmazione.

Le performance di DeepSeek continuano a alimentare le speculazioni. Il modello DeepSeek R1, il primo modello di ragionamento della startup, basato su V3, e le cui capacità di ragionamento avanzato avevano sorpreso gli esperti con costi di training e utilizzo nettamente inferiori a quelli dei suoi concorrenti americani, aveva riuscito a sconvolgere Wall Street.

Secondo un articolo pubblicato da La Tribune ieri, gli Stati Uniti vogliono trovare una spiegazione al "mistero DeepSeek" in un possibile contrabbando di chip Nvidia. Nessuna ipotesi tecnica è da escludere, ma sarebbe un errore non vedere in DeepSeek un nuovo attore di riferimento in IA Open Source, come testimonia questo repository GitHub estremamente interessante.

Pierre-yves Gerlat

Redazione ActuIA — notizie, dati e analisi sull'intelligenza artificiale per i decisori.

DeepSeek annuncia un aggiornamento più potente del suo modello DeepSeek v3

Anthropic costretta a sospendere Fable 5 e Mythos 5 dopo una direttiva del governo statunitense

Siri AI: Gemini come insegnante, non come motore - cosa non ha detto la WWDC

Stesso modello, guardrail diversi: cosa rivela il lancio di Claude Fable 5 e Mythos 5