ByteDance prepara seus próprios CPUs Arm e RISC-V para retomar o controle do custo por token

Com Doubao, ByteDance afirma processar 120.000 trilhões de tokens por dia. Nesta escala, a questão do hardware não se limita mais aos GPUs da Nvidia: os CPUs de servidor, há muito relegados a segundo plano no debate sobre IA, tornam-se novamente uma variável estratégica. Segundo a Reuters, o grupo chinês desenvolve duas famílias de processadores próprios, uma baseada em Arm, outra em RISC-V, para apoiar o desenvolvimento de seus agentes de IA via Coze e reduzir sua dependência da Intel e AMD.

ByteDance teria alcançado um marco industrial. Em março de 2026, Doubao processava 120.000 trilhões de tokens por dia - 120 trillion no sentido anglo-americano - segundo dados divulgados pela Volcano Engine e repercutidos pela TechNode. O uso teria dobrado em três meses e aumentado mil vezes desde o lançamento público do modelo em maio de 2024.

Neste nível de tráfego, o custo de inferência não depende mais apenas do preço dos aceleradores de IA. Também depende de toda a pilha de servidores: CPU, memória, orquestração, chamadas de ferramentas, acesso a bases de dados, rede, filas, latência e disponibilidade. É nesse contexto que a Reuters revelou, em 28 de maio de 2026, que ByteDance desenvolve seus próprios processadores centrais em duas frentes: uma arquitetura Arm, propriedade da SoftBank, e uma arquitetura RISC-V, conjunto de instruções aberto.

O programa está ligado ao desenvolvimento ampliado dos agentes de IA via Coze, a plataforma agente do grupo. Sua motivação imediata é tanto econômica quanto estratégica: a Intel teria notificado seus clientes chineses sobre prazos de entrega de até seis meses em alguns CPUs de servidor, com aumentos de preço de 10 a 35% por trimestre, segundo a Reuters. Para ByteDance, a questão não é apenas "fazer como os hiperescaladores americanos", mas garantir a base de hardware de uma IA usada em escala massiva.

A batalha da IA não se limita aos GPUs

Nos últimos dois anos, o debate sobre hardware de IA concentrou-se na Nvidia, nas restrições de exportação americanas, nos GPUs H100/H200/B200 e nas alternativas chinesas como Huawei Ascend. Esse enquadramento é necessário, mas incompleto.

Os GPUs e aceleradores de IA permanecem centrais para o treinamento de grandes modelos e para as cargas de inferência mais intensivas. Mas os agentes de IA introduzem outra restrição. Um agente não se limita a gerar uma resposta longa em uma única passagem. Ele planeja, chama ferramentas, verifica resultados, relança subtarefas, consulta bases de dados, executa código, interage com APIs e multiplica os ciclos de raciocínio.

Neste tipo de carga, o CPU de servidor torna-se crítico novamente. Ele não substitui o acelerador de IA, mas condiciona o custo total da inferência: orquestração das chamadas, latência entre componentes, gestão de sessões, segurança, agendamento, pré-processamento, pós-processamento e execução das funções chamadas pelos agentes.

É essa camada que ByteDance parece querer retomar. O projeto revelado pela Reuters não deve, portanto, ser lido como uma tentativa de substituir diretamente a Nvidia por CPUs próprios. Trata-se mais de um movimento de integração vertical na base de servidores que envolve cargas de IA, especialmente as cargas de inferência agentica.

Um mercado de servidores chinês que escorrega para fora da Intel

A inflexão não diz respeito apenas à ByteDance. Segundo um estudo da UBS de janeiro de 2026 citado pelo Business Times, a participação de mercado da Intel nos processadores de servidor na China teria passado de mais de 90% em 2019 para cerca de 60% em 2025. No mesmo período, a AMD teria passado de cerca de 5% para mais de 20%.

Essa evolução tem duas consequências. Primeiro, a Intel não está mais em uma situação de quase monopólio no servidor chinês. Em segundo lugar, os grandes clientes chineses agora têm um incentivo mais forte para diversificar sua pilha de hardware, especialmente quando os prazos, preços e restrições geopolíticas aumentam simultaneamente.

A China representa mais de 20% da receita total da Intel. Mas a escassez nos Xeons de quarta e quinta geração tornou essa dependência mais custosa para os clientes locais. Nesse contexto, o desenvolvimento de CPUs próprios pela ByteDance se insere em um movimento mais amplo: o de uma migração progressiva dos grandes editores chineses para arquiteturas mais controladas, sejam elas Arm, RISC-V ou provenientes de fornecedores nacionais.

O programa ainda é embrionário. ByteDance só constituiu sua equipe de design de hardware em 2022. O grupo, portanto, tem experiência limitada em comparação com Apple, Google, Amazon ou Microsoft, que acumulam há quinze a vinte anos as competências necessárias para o desenvolvimento de seus próprios chips.

O precedente dos hiperescaladores: um marco de tráfego, não uma simples reação às sanções

O movimento da ByteDance lembra o dos grandes hiperescaladores americanos. Google, AWS e Microsoft não desenvolveram seus próprios chips apenas por razões de soberania ou comunicação estratégica. Eles o fizeram quando um marco de tráfego, custo ou desempenho tornou o modelo de compra padrão insuficiente.

No Google, a decisão de desenvolver um acelerador dedicado à IA foi desencadeada em 2013 quando uma projeção interna mostrou que a pesquisa por voz poderia dobrar as necessidades de computação dos datacenters. O TPU, projetado para as cargas internas do motor, foi então desenvolvido e implantado em grande velocidade, com ganhos massivos em relação aos CPUs e GPUs contemporâneos em algumas cargas de trabalho.

AWS seguiu com o Trainium, pensado para reduzir o custo de treinamento em relação às instâncias de GPU. A Microsoft generalizou o Azure Cobalt 100, um CPU Arm próprio destinado a otimizar cargas de nuvem gerais, com melhor relação preço/desempenho do que a geração Arm anterior.

O ponto comum não é, portanto, a natureza exata do chip. TPU e Trainium são aceleradores de IA; Cobalt 100 é um CPU Arm; os projetos da ByteDance envolvem CPUs Arm e RISC-V. O ponto comum é mais profundo: quando um ator atinge uma escala suficiente, ele busca internalizar parte de seu silício para otimizar suas próprias cargas em vez de depender inteiramente do mercado padrão.

ByteDance entra nessa lógica. Mas seu caso difere em um ponto essencial: os hiperescaladores americanos puderam contar com a TSMC e uma cadeia de suprimentos avançada. O fabricante dos futuros CPUs da ByteDance não foi anunciado.

SMIC não é TSMC: uma hipótese estruturante, não um detalhe

O fabricante é o grande ponto cego do dossiê. A Reuters não especifica quem fabricaria os futuros CPUs da ByteDance. Alguns analistas mencionam a SMIC como uma opção provável, dado as restrições de exportação e o contexto geopolítico, mas essa hipótese não é confirmada.

Ela muda, no entanto, radicalmente o cálculo econômico. Os precedentes do Google, AWS ou Microsoft baseiam-se em uma capacidade de acesso aos melhores nós de fabricação da TSMC. Se a ByteDance tivesse que se apoiar na SMIC, a diferença de rendimento, densidade energética e custo por wafer se tornaria central.

Em outras palavras, a integração vertical não garante automaticamente um ganho. Ela só faz sentido se o custo total - design, fabricação, rendimento, consumo, manutenção de software, volume de produção e integração de datacenter - se tornar inferior ou estrategicamente preferível à compra de CPUs da Intel ou AMD.

No caso da ByteDance, a motivação pode ser tanto defensiva quanto ofensiva: garantir o fornecimento, reduzir a dependência da Intel e AMD, adaptar o CPU às cargas internas, mas também aceitar um custo inicial maior para ganhar controle ao longo do tempo.

A lembrar: a SMIC permanece uma hipótese, não um fato estabelecido. Mas se essa hipótese se confirmar, a comparação com os hiperescaladores americanos deverá ser fortemente atenuada: desenvolver seu próprio chip não produz os mesmos ganhos dependendo se se tem ou não acesso aos melhores nós de fabricação mundiais.

Uma estratégia de hardware híbrida, não uma saída do bloqueio ocidental

O desenvolvimento de CPUs próprios não significa que ByteDance está saindo do bloqueio de hardware ocidental. Pelo contrário, as informações disponíveis desenham uma estratégia muito mais híbrida.

ByteDance teria aumentado seu plano de investimento para 2026 a 200 bilhões de yuans, cerca de 29,4 bilhões de dólares, um aumento de 25% em relação a um orçamento inicial de 160 bilhões. No plano inicial, 85 bilhões de yuans teriam sido direcionados para chips de IA. Mas a distribuição detalhada do orçamento revisado não foi divulgada.

Paralelamente, a Bloomberg relatou que a Qualcomm teria conquistado um contrato para fornecer milhões de ASICs de IA personalizados para os datacenters da ByteDance. O grupo também dedicaria vários bilhões de dólares aos chips Huawei Ascend. A Nvidia, no entanto, permaneceria difícil de substituir nas cargas de pré-treinamento em larga escala, apesar das restrições de exportação.

Essa combinação contradiz a ideia de uma ruptura nítida. ByteDance não parece escolher entre Nvidia, Huawei, Qualcomm, Arm, RISC-V e seus próprios desenvolvimentos. Ela arbitra entre várias camadas de hardware de acordo com os usos: treinamento, inferência, agentes, nuvem interna, disponibilidade, custo, conformidade e restrições geopolíticas.

A estratégia se assemelha menos a uma busca por autossuficiência e mais a um seguro industrial: não depender mais de um único fornecedor, nem de uma única arquitetura, nem de um único regime de exportação.

Por que a inferência agentica muda o cálculo

O elemento mais importante do dossiê pode ser o menos espetacular: a IA agentica desloca o centro de gravidade do custo.

Em um chatbot clássico, o principal custo visível está ligado ao modelo e ao acelerador que executa a inferência. Em um sistema agentico, cada resposta pode desencadear uma cadeia de ações: planejamento, pesquisa, chamada de ferramenta, verificação, geração intermediária, execução, correção, nova solicitação e restituição final.

Em grande escala, esses loops não consomem apenas GPUs. Eles mobilizam toda a infraestrutura. O CPU torna-se então uma peça central do custo por tarefa, e não mais apenas uma commodity de servidor.

É isso que torna o caso ByteDance interessante. Com Doubao e Coze, o grupo não busca apenas servir conversas. Ele constrói uma infraestrutura para agentes capazes de agir, orquestrar serviços e multiplicar interações máquina-máquina. Neste nível, a otimização de hardware não visa mais apenas o desempenho bruto. Ela visa o custo marginal de cada ação agentica.

Uma aposta ainda longe de ser ganha

O projeto, no entanto, ainda está longe de ser maduro. Projetar um CPU de servidor competitivo exige experiência considerável em hardware, software e indústria. É preciso desenvolver ou adaptar os núcleos, otimizar o consumo, garantir a compatibilidade de software, manter os compiladores, assegurar a cadeia de fabricação, garantir os volumes e convencer as equipes internas a migrar suas cargas.

Os grandes sucessos do silício próprio raramente se baseiam apenas no chip. Eles se baseiam em uma pilha completa: hardware, software de baixo nível, frameworks internos, cargas estabilizadas, volumes massivos e capacidade de amortizar os custos ao longo de vários anos.

ByteDance dispõe do volume. Também tem uma pressão econômica óbvia. Mas ainda não demonstrou que pode transformar essas restrições em uma vantagem de hardware comparável à do Google, Amazon ou Microsoft.

O projeto deve, portanto, ser lido pelo que é: não uma revolução imediata no mercado de CPUs de servidor, mas um sinal estratégico. À medida que a IA agentica muda os perfis de carga, os grandes atores não podem mais se contentar em comprar componentes padrão. Eles buscam controlar as camadas de hardware que determinam seu custo por token, sua disponibilidade e sua independência operacional.

Uma batalha pelo custo completo

O desenvolvimento de CPUs Arm e RISC-V pela ByteDance marca uma etapa na industrialização da IA em grande escala. Após a batalha dos modelos, depois a dos GPUs, outra batalha se abre: a do custo completo de execução.

Nessa batalha, o vencedor não será apenas aquele que tiver o melhor modelo ou o melhor acelerador. Será aquele que souber alinhar arquitetura de hardware, software, orquestração, fornecimento e custos unitários em seus próprios usos.

ByteDance ainda não ganhou essa aposta. Mas com Doubao, Coze e seus volumes de inferência, o grupo agora tem uma razão econômica para tentar.