ByteDance prepara sus propios CPU Arm y RISC-V para recuperar el control del costo por token

Con Doubao, ByteDance afirma procesar 120,000 billones de tokens por día. A esta escala, el desafío material ya no se limita a los GPU de Nvidia: los CPU de servidor, relegados durante mucho tiempo a un segundo plano en el debate sobre IA, vuelven a ser una variable estratégica. Según Reuters, el grupo chino está desarrollando dos familias de procesadores propios, una basada en Arm y otra en RISC-V, para apoyar el despliegue de sus agentes de IA a través de Coze y reducir su dependencia de Intel y AMD.

ByteDance habría alcanzado un umbral industrial. En marzo de 2026, Doubao procesaba 120,000 billones de tokens al día - 120 trillion en el sentido angloamericano - según las cifras publicadas por Volcano Engine y retransmitidas por TechNode. El uso se habría duplicado en tres meses y multiplicado por mil desde el lanzamiento público del modelo en mayo de 2024.

A este nivel de tráfico, el costo de inferencia ya no depende solo del precio de los aceleradores de IA. También depende de toda la pila del servidor: CPU, memoria, orquestación, llamadas a herramientas, acceso a bases de datos, red, colas, latencia y disponibilidad. Es en este contexto que Reuters reveló, el 28 de mayo de 2026, que ByteDance está desarrollando sus propios procesadores centrales según dos enfoques: una arquitectura Arm, propiedad de SoftBank, y una arquitectura RISC-V, conjunto de instrucciones abierto.

El programa está relacionado con el despliegue ampliado de agentes de IA a través de Coze, la plataforma agentica del grupo. Su motivación inmediata es tanto económica como estratégica: Intel habría notificado a sus clientes chinos de plazos de entrega de hasta seis meses en algunos CPU de servidor, con aumentos de precios del 10 al 35% por trimestre según Reuters. Para ByteDance, el desafío no es solo "hacer como los hyperscalers estadounidenses", sino asegurar la base material de una IA utilizada a una escala masiva.

La batalla de la IA no se libra solo en los GPU

En los últimos dos años, el debate material sobre la IA se ha centrado en Nvidia, las restricciones de exportación estadounidenses, los GPU H100/H200/B200 y las alternativas chinas como Huawei Ascend. Este marco es necesario, pero incompleto.

Los GPU y aceleradores de IA siguen siendo centrales para el entrenamiento de grandes modelos y para las cargas de inferencia más intensivas. Pero los agentes de IA introducen otra restricción. Un agente no se contenta con generar una respuesta larga en una sola pasada. Planifica, llama a herramientas, verifica resultados, relanza sub-tareas, consulta bases documentales, ejecuta código, interactúa con APIs y multiplica los bucles de razonamiento.

En este tipo de carga, el CPU de servidor vuelve a ser crítico. No reemplaza al acelerador de IA, pero condiciona el costo completo de la inferencia: orquestación de llamadas, latencia entre componentes, gestión de sesiones, seguridad, programación, preprocesamiento, post-procesamiento y ejecución de las funciones llamadas por los agentes.

Es esta capa la que ByteDance parece querer retomar. El proyecto revelado por Reuters no debe leerse como un intento de reemplazar directamente a Nvidia por CPU propios. Se trata más bien de un movimiento de integración vertical sobre la base del servidor que rodea las cargas de IA, en particular las cargas de inferencia agentica.

Un mercado de servidores chino que se desliza fuera de Intel

El cambio no solo concierne a ByteDance. Según un estudio de UBS de enero de 2026 citado por Business Times, la cuota de mercado de Intel en procesadores de servidor en China habría pasado de más del 90% en 2019 a alrededor del 60% en 2025. En el mismo período, AMD habría pasado de alrededor del 5% a más del 20%.

Esta evolución tiene dos consecuencias. Primero, Intel ya no está en una situación de casi monopolio en el servidor chino. Luego, los grandes clientes chinos ahora tienen un incentivo más fuerte para diversificar su pila material, especialmente cuando los plazos, los precios y las restricciones geopolíticas aumentan simultáneamente.

China representa más del 20% de la facturación total de Intel. Pero la escasez en los Xeon de cuarta y quinta generación ha hecho que esta dependencia sea más costosa para los clientes locales. En este contexto, el desarrollo de CPU propios por parte de ByteDance se inscribe en un movimiento más amplio: el de una migración progresiva de los grandes editores chinos hacia arquitecturas mejor controladas, ya sean Arm, RISC-V o provenientes de proveedores nacionales.

El programa sigue siendo sin embargo embrionario. ByteDance apenas constituyó su equipo de diseño de hardware en 2022. El grupo tiene por lo tanto una experiencia limitada frente a Apple, Google, Amazon o Microsoft, que acumulan desde hace quince a veinte años las competencias necesarias para el desarrollo de sus propios chips.

El precedente de los hyperscalers: un umbral de tráfico, no una simple reacción a las sanciones

El movimiento de ByteDance recuerda al de los grandes hyperscalers estadounidenses. Google, AWS y Microsoft no desarrollaron sus chips propios solo por razones de soberanía o comunicación estratégica. Lo hicieron cuando un umbral de tráfico, costo o rendimiento hizo que el modelo de compra estándar fuera insuficiente.

En Google, la decisión de desarrollar un acelerador dedicado a la IA se desencadenó en 2013 cuando una proyección interna mostró que la búsqueda por voz podría duplicar las necesidades de cálculo de los centros de datos. El TPU, diseñado para las cargas internas del motor, se desarrolló y desplegó a gran velocidad, con ganancias masivas en comparación con los CPU y GPU contemporáneos en ciertas cargas de trabajo.

AWS siguió con Trainium, pensado para reducir el costo de entrenamiento frente a las instancias GPU. Microsoft generalizó Azure Cobalt 100, un CPU Arm propio destinado a optimizar las cargas de nube generales, con una mejor relación precio/rendimiento que la generación Arm anterior.

El punto común no es la naturaleza exacta del chip. TPU y Trainium son aceleradores de IA; Cobalt 100 es un CPU Arm; los proyectos de ByteDance se centran en CPU Arm y RISC-V. El punto común es más profundo: cuando un actor alcanza una escala suficiente, busca internalizar parte de su silicio para optimizar sus propias cargas en lugar de depender completamente del mercado estándar.

ByteDance entra en esta lógica. Pero su caso difiere en un punto esencial: los hyperscalers estadounidenses han podido apoyarse en TSMC y en una cadena de suministro avanzada. El fundidor de los futuros CPU de ByteDance no ha sido anunciado.

SMIC no es TSMC: una hipótesis estructurante, no un detalle

El fundidor es el gran ángulo muerto del dossier. Reuters no especifica quién fabricaría los futuros CPU de ByteDance. Algunos analistas mencionan a SMIC como una opción probable, dadas las restricciones de exportación y el contexto geopolítico, pero esta hipótesis no está confirmada.

Cambia sin embargo radicalmente el cálculo económico. Los precedentes de Google, AWS o Microsoft se basan en una capacidad de acceso a los mejores nodos de fabricación de TSMC. Si ByteDance tuviera que apoyarse en SMIC, la brecha de rendimiento, densidad energética y costo por oblea se convertiría en central.

En otras palabras, la integración vertical no garantiza automáticamente una ganancia. Solo tiene sentido si el costo total - diseño, fabricación, rendimiento, consumo, mantenimiento de software, volumen de producción e integración en el centro de datos - se vuelve inferior o estratégicamente preferible a la compra de CPU de Intel o AMD.

En el caso de ByteDance, la motivación puede ser tanto defensiva como ofensiva: asegurar el suministro, reducir la dependencia de Intel y AMD, adaptar el CPU a las cargas internas, pero también aceptar un sobrecosto inicial para ganar en control a largo plazo.

A tener en cuenta: SMIC sigue siendo una hipótesis, no un hecho establecido. Pero si esta hipótesis se confirma, la comparación con los hyperscalers estadounidenses deberá ser fuertemente matizada: desarrollar su propio chip no produce las mismas ganancias según se tenga o no acceso a los mejores nodos de fabricación mundiales.

Una estrategia de hardware híbrida, no una salida del bloqueo occidental

El desarrollo de CPU propios no significa que ByteDance salga del bloqueo de hardware occidental. Al contrario, la información disponible dibuja una estrategia mucho más híbrida.

ByteDance habría aumentado su plan de inversión 2026 a 200 mil millones de yuanes, es decir, aproximadamente 29.4 mil millones de dólares, un aumento del 25% en comparación con un presupuesto inicial de 160 mil millones. En el plan inicial, 85 mil millones de yuanes habrían sido dirigidos hacia los chips de IA. Pero la descomposición detallada del presupuesto revisado no ha sido publicada.

En paralelo, Bloomberg ha informado que Qualcomm habría ganado un contrato para suministrar millones de ASIC de IA personalizados a los centros de datos de ByteDance. El grupo también dedicaría varios miles de millones de dólares a los chips Huawei Ascend. Nvidia seguiría siendo difícil de reemplazar en las cargas de pre-entrenamiento a gran escala, a pesar de las restricciones de exportación.

Esta combinación contradice la idea de una ruptura neta. ByteDance no parece elegir entre Nvidia, Huawei, Qualcomm, Arm, RISC-V y sus propios desarrollos. Arbitra entre varias capas de hardware según los usos: entrenamiento, inferencia, agentes, nube interna, disponibilidad, costo, conformidad y restricciones geopolíticas.

La estrategia se parece menos a una búsqueda de autarquía que a un seguro industrial: ya no depender de un solo proveedor, ni de una sola arquitectura, ni de un solo régimen de exportación.

Por qué la inferencia agentica cambia el cálculo

El elemento más importante del dossier es quizás el menos espectacular: la IA agentica desplaza el centro de gravedad del costo.

En un chatbot clásico, la mayor parte del costo visible está ligado al modelo y al acelerador que ejecuta la inferencia. En un sistema agentico, cada respuesta puede desencadenar una cadena de acciones: planificación, búsqueda, llamada a una herramienta, verificación, generación intermedia, ejecución, corrección, nueva solicitud y restitución final.

A gran escala, estos bucles no consumen solo GPU. Movilizan toda la infraestructura. El CPU se convierte entonces en una pieza central del costo por tarea, y no solo en una mercancía de servidor.

Es lo que hace interesante el caso ByteDance. Con Doubao y Coze, el grupo no solo busca servir conversaciones. Está construyendo una infraestructura para agentes capaces de actuar, orquestar servicios y multiplicar las interacciones máquina-máquina. A este nivel, la optimización de hardware ya no busca solo el rendimiento bruto. Busca el costo marginal de cada acción agentica.

Una apuesta aún lejos de estar ganada

El proyecto sigue estando lejos de ser maduro. Concebir un CPU de servidor competitivo exige una considerable experiencia en hardware, software e industria. Hay que desarrollar o adaptar los núcleos, optimizar el consumo, asegurar la compatibilidad de software, mantener los compiladores, asegurar la cadena de fabricación, garantizar los volúmenes y convencer a los equipos internos de migrar sus cargas.

Los grandes éxitos del silicio propio rara vez se basan solo en el chip. Se basan en una pila completa: hardware, software de bajo nivel, marcos internos, cargas de trabajo estabilizadas, volúmenes masivos y capacidad para amortizar los costos a lo largo de varios años.

ByteDance dispone del volumen. También dispone de una presión económica evidente. Pero aún no ha demostrado que puede transformar estas restricciones en una ventaja de hardware comparable a la de Google, Amazon o Microsoft.

El proyecto debe ser leído por lo que es: no una revolución inmediata del mercado de CPU de servidor, sino una señal estratégica. A medida que la IA agentica cambia los perfiles de carga, los grandes actores ya no pueden contentarse con comprar componentes estándar. Buscan controlar las capas de hardware que determinan su costo por token, su disponibilidad y su independencia operativa.

Una batalla por el costo completo

El desarrollo de CPU Arm y RISC-V por parte de ByteDance marca una etapa en la industrialización de la IA a gran escala. Después de la batalla de los modelos, luego la de los GPU, se abre otra batalla: la del costo completo de ejecución.

En esta batalla, el ganador no será solo el que tenga el mejor modelo o el mejor acelerador. Será aquel que sepa alinear arquitectura de hardware, software, orquestación, suministro y costos unitarios en sus propios usos.

ByteDance aún no ha ganado esta apuesta. Pero con Doubao, Coze y sus volúmenes de inferencia, el grupo ahora tiene una razón económica para intentarlo.