Alleanza strategica

DeepSeek annuncia un aggiornamento più potente del suo modello DeepSeek v3

La start-up cinese DeepSeek ha lanciato un aggiornamento del suo modello open source DeepSeek-V3, ottimizzando le capacità in matematica e programmazione. Il modello è disponibile su Hugging Face.

PIPierre-yves Gerlat · · ·2 min
DeepSeek annuncia un aggiornamento più potente del suo modello DeepSeek v3
Sommario
La start-up cinese DeepSeek ha lanciato discretamente DeepSeek-V3-0324, un aggiornamento del suo modello open source eponimo DeepSeek-V3. Questa nuova versione, le cui capacità in matematica e programmazione sono state ottimizzate, potrebbe prefigurare DeepSeek R2, la cui uscita è attesa a breve. Il modello, pubblicato sotto licenza MIT, una delle più permissive, è disponibile su Hugging Face.
 
Questo lancio non è stato accompagnato da alcun comunicato della start-up creata a maggio 2023 a Hangzhou, diretta da Liang Wenfeng e filiale del fondo speculativo High-Flyer.
 
Mentre DeepSeek-V3, conta 671 miliardi di parametri, DeepSeek-V3-0324 ne presenta 685 miliardi ed è alimentato da un cluster di 32.000 GPU, rendendolo uno dei modelli open source più potenti della sua categoria. Si basa su un'architettura Mixture-of-Experts sviluppata per i suoi predecessori, DeepSeekMoE, composta come suggerisce il nome, da vari esperti specializzati. Questi ultimi sono attivati a seconda delle esigenze specifiche delle richieste grazie a un meccanismo di instradamento intelligente, permettendo al modello di gestire efficacemente una varietà di compiti riducendo il carico computazionale.
 
Dovrebbe adottare anche la loro architettura innovativa Multi-head Latent Attention (Attenzione Latente Multi-teste o MLA), un approccio che permette di comprimere congiuntamente le chiavi e i valori di attenzione, riducendo così la dimensione della cache Key-Value (KV) durante l'inferenza, diminuendo l'uso della memoria migliorando al contempo l'efficienza del trattamento.
 
Se DeepSeek presenta questa versione come un aggiornamento minore di DeepSeek V3 su X, i primi commenti, poche ore dopo il lancio, sottolineano reali avanzamenti, soprattutto in matematica e programmazione.

Le performance di DeepSeek continuano a alimentare le speculazioni. Il modello DeepSeek R1, il primo modello di ragionamento della startup, basato su V3, e le cui capacità di ragionamento avanzato avevano sorpreso gli esperti con costi di training e utilizzo nettamente inferiori a quelli dei suoi concorrenti americani, aveva riuscito a sconvolgere Wall Street.
 
Secondo un articolo pubblicato da La Tribune ieri, gli Stati Uniti vogliono trovare una spiegazione al "mistero DeepSeek" in un possibile contrabbando di chip Nvidia. Nessuna ipotesi tecnica è da escludere, ma sarebbe un errore non vedere in DeepSeek un nuovo attore di riferimento in IA Open Source, come testimonia questo repository GitHub estremamente interessante.
PI
Pierre-yves Gerlat

Redazione ActuIA — notizie, dati e analisi sull'intelligenza artificiale per i decisori.

Attori citati
DEDeepSeek
HUHugging Face
WAWall Street
NVNvidia
XX
Il Settimanale ActuIA

Iscrizione confermata, a presto!