ByteDance prépare ses propres CPU Arm et RISC-V pour reprendre le contrôle du coût par token

Avec Doubao, ByteDance affirme traiter 120 000 milliards de tokens par jour. À cette échelle, l’enjeu matériel ne se limite plus aux GPU Nvidia : les CPU serveur, longtemps relégués au second plan dans le débat sur l’IA, redeviennent une variable stratégique. Selon Reuters, le groupe chinois développe deux familles de processeurs maison, l’une fondée sur Arm, l’autre sur RISC-V, pour soutenir le déploiement de ses agents IA via Coze et réduire sa dépendance à Intel et AMD.

ByteDance aurait franchi un seuil industriel. En mars 2026, Doubao traitait 120 000 milliards de tokens par jour - 120 trillion au sens anglo-américain - selon les chiffres publiés par Volcano Engine et relayés par TechNode. L’usage aurait doublé en trois mois et été multiplié par mille depuis le lancement public du modèle en mai 2024.

À ce niveau de trafic, le coût d’inférence ne dépend plus seulement du prix des accélérateurs IA. Il dépend aussi de l’ensemble de la pile serveur : CPU, mémoire, orchestration, appels outils, accès bases de données, réseau, files d’attente, latence et disponibilité. C’est dans ce contexte que Reuters a révélé, le 28 mai 2026, que ByteDance développe ses propres processeurs centraux selon deux pistes : une architecture Arm, propriété de SoftBank, et une architecture RISC-V, jeu d’instructions ouvert.

Le programme est lié au déploiement élargi des agents IA via Coze, la plateforme agentique du groupe. Sa motivation immédiate est économique autant que stratégique : Intel aurait notifié à ses clients chinois des délais de livraison allant jusqu’à six mois sur certains CPU serveur, avec des hausses tarifaires de 10 à 35 % par trimestre selon Reuters. Pour ByteDance, l’enjeu n’est donc pas seulement de « faire comme les hyperscalers américains », mais de sécuriser le socle matériel d’une IA utilisée à une échelle massive.

La bataille IA ne se joue pas seulement sur les GPU

Depuis deux ans, le débat matériel sur l’IA s’est concentré sur Nvidia, les restrictions d’exportation américaines, les GPU H100/H200/B200 et les alternatives chinoises comme Huawei Ascend. Ce cadrage est nécessaire, mais incomplet.

Les GPU et accélérateurs IA restent centraux pour l’entraînement de grands modèles et pour les charges d’inférence les plus intensives. Mais les agents IA introduisent une autre contrainte. Un agent ne se contente pas de générer une réponse longue en une seule passe. Il planifie, appelle des outils, vérifie des résultats, relance des sous-tâches, consulte des bases documentaires, exécute du code, interagit avec des API et multiplie les boucles de raisonnement.

Dans ce type de charge, le CPU serveur redevient critique. Il ne remplace pas l’accélérateur IA, mais il conditionne le coût complet de l’inférence : orchestration des appels, latence entre composants, gestion des sessions, sécurité, scheduling, prétraitement, post-traitement et exécution des fonctions appelées par les agents.

C’est cette couche que ByteDance semble vouloir reprendre en main. Le projet révélé par Reuters ne doit donc pas être lu comme une tentative de remplacer directement Nvidia par des CPU maison. Il s’agit plutôt d’un mouvement d’intégration verticale sur le socle serveur qui entoure les charges IA, en particulier les charges d’inférence agentique.

Un marché serveur chinois qui glisse hors d’Intel

L’inflexion ne concerne pas seulement ByteDance. Selon une étude UBS de janvier 2026 citée par Business Times, la part de marché d’Intel sur les processeurs serveur en Chine serait passée de plus de 90 % en 2019 à environ 60 % en 2025. Sur la même période, AMD serait passé d’environ 5 % à plus de 20 %.

Cette évolution a deux conséquences. D’abord, Intel n’est plus en situation de quasi-monopole sur le serveur chinois. Ensuite, les grands clients chinois ont désormais une incitation plus forte à diversifier leur pile matérielle, surtout lorsque les délais, les prix et les restrictions géopolitiques augmentent simultanément.

La Chine représente plus de 20 % du chiffre d’affaires total d’Intel. Mais la pénurie sur les Xeon de quatrième et cinquième génération a rendu cette dépendance plus coûteuse pour les clients locaux. Dans ce contexte, le développement de CPU maison par ByteDance s’inscrit dans un mouvement plus large : celui d’une migration progressive des grands éditeurs chinois vers des architectures mieux contrôlées, qu’elles soient Arm, RISC-V ou issues de fournisseurs nationaux.

Le programme reste toutefois embryonnaire. ByteDance n’a constitué son équipe de conception matérielle qu’en 2022. Le groupe dispose donc d’une expérience limitée face à Apple, Google, Amazon ou Microsoft, qui accumulent depuis quinze à vingt ans les compétences nécessaires au développement de leurs propres puces.

Le précédent des hyperscalers : un seuil de trafic, pas une simple réaction aux sanctions

Le mouvement de ByteDance rappelle celui des grands hyperscalers américains. Google, AWS et Microsoft n’ont pas développé leurs puces maison uniquement pour des raisons de souveraineté ou de communication stratégique. Ils l’ont fait lorsqu’un seuil de trafic, de coût ou de performance a rendu le modèle d’achat standard insuffisant.

Chez Google, la décision de développer un accélérateur dédié à l’IA a été déclenchée en 2013 lorsqu’une projection interne a montré que la recherche vocale pouvait doubler les besoins de calcul des datacenters. Le TPU, conçu pour les charges internes du moteur, a ensuite été développé et déployé à grande vitesse, avec des gains massifs par rapport aux CPU et GPU contemporains sur certains workloads.

AWS a suivi avec Trainium, pensé pour réduire le coût d’entraînement face aux instances GPU. Microsoft a généralisé Azure Cobalt 100, un CPU Arm maison destiné à optimiser les charges cloud générales, avec un meilleur rapport prix/performance que la génération Arm précédente.

Le point commun n’est donc pas la nature exacte de la puce. TPU et Trainium sont des accélérateurs IA ; Cobalt 100 est un CPU Arm ; les projets de ByteDance portent sur des CPU Arm et RISC-V. Le point commun est plus profond : lorsqu’un acteur atteint une échelle suffisante, il cherche à internaliser une partie de son silicium pour optimiser ses propres charges plutôt que de dépendre entièrement du marché standard.

ByteDance entre dans cette logique. Mais son cas diffère sur un point essentiel : les hyperscalers américains ont pu s’appuyer sur TSMC et sur une chaîne d’approvisionnement avancée. Le fondeur des futurs CPU ByteDance n’a pas été annoncé.

SMIC n’est pas TSMC : une hypothèse structurante, pas un détail

Le fondeur est le grand angle mort du dossier. Reuters ne précise pas qui fabriquerait les futurs CPU de ByteDance. Certains analystes évoquent SMIC comme option vraisemblable, compte tenu des restrictions d’exportation et du contexte géopolitique, mais cette hypothèse n’est pas confirmée.

Elle change pourtant radicalement le calcul économique. Les précédents Google, AWS ou Microsoft reposent sur une capacité d’accès aux meilleurs nœuds de fabrication de TSMC. Si ByteDance devait s’appuyer sur SMIC, l’écart de rendement, de densité énergétique et de coût par wafer deviendrait central.

Autrement dit, l’intégration verticale ne garantit pas automatiquement un gain. Elle n’a de sens que si le coût total - conception, fabrication, rendement, consommation, maintenance logicielle, volume de production et intégration datacenter - devient inférieur ou stratégiquement préférable à l’achat de CPU Intel ou AMD.

Dans le cas de ByteDance, la motivation peut donc être autant défensive qu’offensive : sécuriser l’approvisionnement, réduire la dépendance à Intel et AMD, adapter le CPU aux charges internes, mais aussi accepter un surcoût initial pour gagner en contrôle sur la durée.

À retenir : SMIC reste une hypothèse, non un fait établi. Mais si cette hypothèse se confirme, la comparaison avec les hyperscalers américains devra être fortement nuancée : développer sa propre puce ne produit pas les mêmes gains selon que l’on accède ou non aux meilleurs nœuds de fabrication mondiaux.

Une stratégie matérielle hybride, pas une sortie du verrouillage occidental

Le développement de CPU maison ne signifie pas que ByteDance sort du verrouillage matériel occidental. Au contraire, les informations disponibles dessinent une stratégie beaucoup plus hybride.

ByteDance aurait porté son plan d’investissement 2026 à 200 milliards de yuans, soit environ 29,4 milliards de dollars, en hausse de 25 % par rapport à une enveloppe initiale de 160 milliards. Dans le plan initial, 85 milliards de yuans auraient été fléchés vers les puces IA. Mais la ventilation détaillée de l’enveloppe révisée n’a pas été rendue publique.

En parallèle, Bloomberg a rapporté que Qualcomm aurait remporté un contrat pour fournir des millions d’ASIC IA personnalisés aux datacenters de ByteDance. Le groupe consacrerait également plusieurs milliards de dollars aux puces Huawei Ascend. Nvidia resterait toutefois difficile à remplacer sur les charges de pré-entraînement à grande échelle, malgré les restrictions d’exportation.

Cette combinaison contredit l’idée d’une rupture nette. ByteDance ne semble pas choisir entre Nvidia, Huawei, Qualcomm, Arm, RISC-V et ses propres développements. Il arbitre entre plusieurs couches matérielles selon les usages : entraînement, inférence, agents, cloud interne, disponibilité, coût, conformité et contraintes géopolitiques.

La stratégie ressemble moins à une quête d’autarcie qu’à une assurance industrielle : ne plus dépendre d’un seul fournisseur, ni d’une seule architecture, ni d’un seul régime d’exportation.

Pourquoi l’inférence agentique change le calcul

L’élément le plus important du dossier est peut-être le moins spectaculaire : l’IA agentique déplace le centre de gravité du coût.

Dans un chatbot classique, l’essentiel du coût visible est lié au modèle et à l’accélérateur qui exécute l’inférence. Dans un système agentique, chaque réponse peut déclencher une chaîne d’actions : planification, recherche, appel à un outil, vérification, génération intermédiaire, exécution, correction, nouvelle requête et restitution finale.

À grande échelle, ces boucles ne consomment pas seulement des GPU. Elles mobilisent l’ensemble de l’infrastructure. Le CPU devient alors une pièce centrale du coût par tâche, et non plus seulement une commodité serveur.

C’est ce qui rend le cas ByteDance intéressant. Avec Doubao et Coze, le groupe ne cherche pas seulement à servir des conversations. Il construit une infrastructure pour des agents capables d’agir, d’orchestrer des services et de multiplier les interactions machine-machine. À ce niveau, l’optimisation matérielle ne vise plus seulement la performance brute. Elle vise le coût marginal de chaque action agentique.

Un pari encore loin d’être gagné

Le projet reste toutefois loin d’être mature. Concevoir un CPU serveur compétitif exige une expertise matérielle, logicielle et industrielle considérable. Il faut développer ou adapter les cœurs, optimiser la consommation, assurer la compatibilité logicielle, maintenir les compilateurs, sécuriser la chaîne de fabrication, garantir les volumes et convaincre les équipes internes de migrer leurs charges.

Les grands succès du silicium maison reposent rarement sur la puce seule. Ils reposent sur une pile complète : matériel, logiciels bas niveau, frameworks internes, workloads stabilisés, volumes massifs et capacité à amortir les coûts sur plusieurs années.

ByteDance dispose du volume. Il dispose aussi d’une pression économique évidente. Mais il n’a pas encore démontré qu’il pouvait transformer ces contraintes en un avantage matériel comparable à celui de Google, Amazon ou Microsoft.

Le projet doit donc être lu pour ce qu’il est : non pas une révolution immédiate du marché des CPU serveur, mais un signal stratégique. À mesure que l’IA agentique change les profils de charge, les grands acteurs ne peuvent plus se contenter d’acheter des composants standards. Ils cherchent à contrôler les couches matérielles qui déterminent leur coût par token, leur disponibilité et leur indépendance opérationnelle.

Une bataille du coût complet

Le développement de CPU Arm et RISC-V par ByteDance marque une étape dans l’industrialisation de l’IA à très grande échelle. Après la bataille des modèles, puis celle des GPU, une autre bataille s’ouvre : celle du coût complet d’exécution.

Dans cette bataille, le gagnant ne sera pas seulement celui qui aura le meilleur modèle ou le meilleur accélérateur. Ce sera celui qui saura aligner architecture matérielle, logiciel, orchestration, approvisionnement et coûts unitaires sur ses propres usages.

ByteDance n’a pas encore gagné ce pari. Mais avec Doubao, Coze et ses volumes d’inférence, le groupe a désormais une raison économique de le tenter.