Alianza estratégica

DeepSeek anuncia una actualización más poderosa de su modelo DeepSeek v3

La startup china DeepSeek ha lanzado discretamente DeepSeek-V3-0324, una actualización de su modelo open source epónimo. Esta nueva versión, cuyas capacidades en matemáticas y programación han sido optimizadas, podría prefigurar DeepSeek R2, cuyo lanzamiento se espera próximamente.

PIPierre-yves Gerlat · · ·2 min
DeepSeek anuncia una actualización más poderosa de su modelo DeepSeek v3
Índice
La startup china DeepSeek ha lanzado discretamente DeepSeek-V3-0324, una actualización de su modelo open source epónimoDeepSeek-V3. Esta nueva versión, cuyas capacidades en matemáticas y programación han sido optimizadas, podría prefigurar DeepSeek R2, cuyo lanzamiento se espera próximamente. El modelo, publicado bajo la licencia MIT, una de las más permisivas, está disponible en Hugging Face.
 
Este lanzamiento no ha sido acompañado de ningún comunicado por parte de la startup creada en mayo de 2023 en Hangzhou, dirigida por Liang Wenfeng y filial del fondo especulativo High-Flyer.
 
Mientras que DeepSeek-V3 cuenta con 671 mil millones de parámetros, DeepSeek-V3-0324 exhibe 685 mil millones y es alimentado por un clúster de 32,000 GPUs, lo que lo convierte en uno de los modelos open source más poderosos de su categoría. Se basa en una arquitectura Mixture-of-Experts desarrollada para sus predecesores, DeepSeekMoE, compuesta, como su nombre indica, por diversos expertos especializados. Estos se activan según las necesidades específicas de las solicitudes gracias a un mecanismo de enrutamiento inteligente, lo que permite al modelo gestionar eficazmente una variedad de tareas mientras reduce la carga computacional.
 
También debería adoptar su arquitectura innovadora Multi-head Latent Attention (Atención Latente Multi-cabezas o MLA), un enfoque que permite comprimir de manera conjunta las claves y los valores de atención, disminuyendo así el tamaño del caché Key-Value (KV) durante la inferencia, reduciendo el uso de memoria mientras mejora la eficiencia del procesamiento.
 
Si bien DeepSeek presenta esta versión como una actualización menor de DeepSeek V3 en X, los primeros comentarios, apenas unas horas después del lanzamiento, destacan avances reales, especialmente en matemáticas y programación.

El rendimiento de DeepSeek continúa alimentando las especulaciones. El modelo DeepSeek R1, el primer modelo de razonamiento de la startup, basado en V3, y cuyas capacidades de razonamiento avanzadas habían sorprendido a los expertos con costos de entrenamiento y uso significativamente inferiores a los de sus competidores estadounidenses, había logrado perturbar Wall Street.
 
Según un artículo publicado por La Tribune ayer, Estados Unidos quiere encontrar una explicación al "misterio DeepSeek" en un posible contrabando de chips Nvidia. Ninguna hipótesis técnica debe descartarse, pero sería un error no ver en DeepSeek un nuevo actor de referencia en IA Open Source, como lo demuestra este repositorio de GitHub extremadamente interesante.
PI
Pierre-yves Gerlat

Redacción de ActuIA — noticias, datos y análisis sobre inteligencia artificial para los responsables de decisiones.

Actores citados
DEDeepSeek
HUHugging Face
WAWall Street
NVNvidia
XX
El Semanal ActuIA

Suscripción confirmada, ¡hasta pronto!