Aliança estratégica

DeepSeek anuncia uma atualização mais poderosa de seu modelo DeepSeek v3

A start-up chinesa DeepSeek lançou discretamente DeepSeek-V3-0324, uma atualização de seu modelo open source homônimo. Esta nova versão, cujas capacidades em matemática e programação foram otimizadas, pode antecipar o DeepSeek R2, cujo lançamento é esperado em breve. O modelo, publicado sob licença MIT, uma das mais permissivas, está disponível no Hugging Face.

PIPierre-yves Gerlat · · ·2 min
DeepSeek anuncia uma atualização mais poderosa de seu modelo DeepSeek v3
Índice
A start-up chinesa DeepSeek lançou discretamente DeepSeek-V3-0324, uma atualização de seu modelo open source homônimo DeepSeek-V3. Esta nova versão, cujas capacidades em matemática e programação foram otimizadas, pode antecipar o DeepSeek R2, cujo lançamento é esperado em breve. O modelo, publicado sob licença MIT, uma das mais permissivas, está disponível no Hugging Face.
 
Este lançamento não foi acompanhado de nenhum comunicado da start-up criada em maio de 2023 em Hangzhou, dirigida por Liang Wenfeng e filial do fundo especulativo High-Flyer.
 
Enquanto o DeepSeek-V3 possui 671 bilhões de parâmetros, o DeepSeek-V3-0324 apresenta 685 bilhões e é alimentado por um cluster de 32.000 GPUs, o que o torna um dos modelos open source mais poderosos de sua categoria. Ele se baseia em uma arquitetura Mixture-of-Experts desenvolvida para seus predecessores, DeepSeekMoE, composta, como o nome indica, de diversos especialistas especializados. Estes últimos são ativados conforme as necessidades específicas das consultas, graças a um mecanismo de roteamento inteligente, permitindo que o modelo gerencie eficientemente uma variedade de tarefas enquanto reduz a carga computacional.
 
Ele também deve adotar sua arquitetura inovadora Multi-head Latent Attention (Atenção Latente Multi-cabeças ou MLA), uma abordagem que permite comprimir conjuntamente as chaves e os valores de atenção, diminuindo assim o tamanho do cache Key-Value (KV) durante a inferência, reduzindo o uso de memória enquanto melhora a eficiência do processamento.
 
Se a DeepSeek apresenta esta versão como uma atualização menor do DeepSeek V3 no X, os primeiros comentários, algumas horas após o lançamento, destacam avanços reais, especialmente em matemática e programação.

As performances da DeepSeek continuam a alimentar especulações. O modelo DeepSeek R1, o primeiro modelo de raciocínio da startup, baseado no V3, e cujas capacidades de raciocínio avançadas surpreenderam os especialistas com custos de treinamento e uso significativamente inferiores aos de seus concorrentes americanos, conseguiu perturbar Wall Street.
 
Segundo um artigo publicado por La Tribune ontem, os Estados Unidos querem encontrar uma explicação para o "mistério DeepSeek" em uma possível contrabando de chips Nvidia. Nenhuma hipótese técnica está descartada, mas seria um erro não ver na DeepSeek um novo ator de referência em IA Open Source, como atesta este repositório no github extremamente interessante.
PI
Pierre-yves Gerlat

Redação ActuIA — notícias, dados e análises sobre inteligência artificial para os decisores.

Atores citados
DEDeepSeek
HUHugging Face
WAWall Street
NVNvidia
XX
O Semanário ActuIA

Inscrição confirmada, até breve!