ByteDance bereidt zijn eigen Arm- en RISC-V-CPU's voor om de controle over de kost per token terug te nemen

Met Doubao beweert ByteDance dagelijks 120 biljoen tokens te verwerken. Op deze schaal beperkt de materiële uitdaging zich niet langer tot Nvidia GPU's: server-CPU's, die lange tijd naar de achtergrond zijn gedrukt in het debat over AI, worden opnieuw een strategische variabele. Volgens Reuters ontwikkelt de Chinese groep twee families van eigen processors, één gebaseerd op Arm en de andere op RISC-V, om de uitrol van zijn AI-agenten via Coze te ondersteunen en zijn afhankelijkheid van Intel en AMD te verminderen.

ByteDance zou een industriële drempel hebben overschreden. In maart 2026 verwerkte Doubao 120 biljoen tokens per dag - 120 trillion in Amerikaanse termen - volgens cijfers gepubliceerd door Volcano Engine en gerapporteerd door TechNode. Het gebruik zou in drie maanden zijn verdubbeld en met duizend zijn vermenigvuldigd sinds de publieke lancering van het model in mei 2024.

Op dit niveau van verkeer hangt de inferentiekost niet langer alleen af van de prijs van AI-versnellers. Het hangt ook af van de hele serverstack: CPU, geheugen, orkestratie, tool-aanroepen, toegang tot databases, netwerk, wachtrijen, latentie en beschikbaarheid. In deze context onthulde Reuters op 28 mei 2026 dat ByteDance zijn eigen centrale processors ontwikkelt volgens twee sporen: een Arm-architectuur, eigendom van SoftBank, en een RISC-V-architectuur, een open instructieset.

Het programma is gekoppeld aan de uitgebreide uitrol van AI-agenten via Coze, het agentenplatform van de groep. De onmiddellijke motivatie is zowel economisch als strategisch: Intel zou zijn Chinese klanten op de hoogte hebben gebracht van levertijden tot zes maanden voor bepaalde server-CPU's, met prijsstijgingen van 10 tot 35% per kwartaal volgens Reuters. Voor ByteDance is de uitdaging dus niet alleen om "te doen zoals de Amerikaanse hyperscalers", maar om de materiële basis van een AI die op grote schaal wordt gebruikt, te beveiligen.

De AI-strijd speelt zich niet alleen af op GPU's

De afgelopen twee jaar heeft het materiële debat over AI zich geconcentreerd op Nvidia, Amerikaanse exportbeperkingen, H100/H200/B200 GPU's en Chinese alternatieven zoals Huawei Ascend. Deze kadrering is noodzakelijk, maar onvolledig.

GPU's en AI-versnellers blijven centraal staan voor de training van grote modellen en voor de meest intensieve inferentielasten. Maar AI-agenten introduceren een andere beperking. Een agent genereert niet alleen een lange reactie in één keer. Hij plant, roept tools aan, controleert resultaten, start subtaken opnieuw, raadpleegt documentatiebronnen, voert code uit, interacteert met API's en vermenigvuldigt denkprocessen.

Bij dit soort belasting wordt de server-CPU weer kritisch. Het vervangt de AI-versneller niet, maar het bepaalt de totale inferentiekost: orkestratie van oproepen, latentie tussen componenten, sessiebeheer, veiligheid, planning, voorbewerking, nabewerking en uitvoering van functies aangeroepen door de agenten.

Het lijkt erop dat ByteDance deze laag in eigen hand wil nemen. Het door Reuters onthulde project moet dus niet worden gelezen als een poging om Nvidia direct te vervangen door eigen CPU's. Het is eerder een beweging van verticale integratie op de serverbasis die de AI-belasting omringt, met name de agentische inferentielasten.

Een Chinese servermarkt die wegdrijft van Intel

De verschuiving betreft niet alleen ByteDance. Volgens een UBS-studie van januari 2026, geciteerd door Business Times, is het marktaandeel van Intel in serverprocessors in China gedaald van meer dan 90% in 2019 naar ongeveer 60% in 2025. In dezelfde periode is AMD gestegen van ongeveer 5% naar meer dan 20%.

Deze evolutie heeft twee gevolgen. Ten eerste is Intel niet langer in een quasi-monopoliepositie op de Chinese servermarkt. Ten tweede hebben grote Chinese klanten nu een sterkere stimulans om hun hardware stack te diversifiëren, vooral wanneer levertijden, prijzen en geopolitieke beperkingen tegelijkertijd toenemen.

China vertegenwoordigt meer dan 20% van de totale omzet van Intel. Maar het tekort aan vierde en vijfde generatie Xeon-processors heeft deze afhankelijkheid duurder gemaakt voor lokale klanten. In deze context past de ontwikkeling van eigen CPU's door ByteDance in een bredere trend: een geleidelijke migratie van grote Chinese uitgevers naar beter gecontroleerde architecturen, of ze nu Arm, RISC-V of afkomstig van nationale leveranciers zijn.

Het programma blijft echter embryonaal. ByteDance heeft zijn hardware-ontwerpteam pas in 2022 opgericht. De groep heeft dus beperkte ervaring in vergelijking met Apple, Google, Amazon of Microsoft, die al vijftien tot twintig jaar de nodige vaardigheden opbouwen voor de ontwikkeling van hun eigen chips.

Het precedent van de hyperscalers: een verkeersdrempel, geen simpele reactie op sancties

De beweging van ByteDance doet denken aan die van de grote Amerikaanse hyperscalers. Google, AWS en Microsoft hebben hun eigen chips niet alleen ontwikkeld om redenen van soevereiniteit of strategische communicatie. Ze deden dit toen een verkeers-, kosten- of prestatiedrempel het standaard inkoopmodel ontoereikend maakte.

Bij Google werd de beslissing om een speciale AI-versneller te ontwikkelen in 2013 genomen toen een interne projectie aantoonde dat spraakzoekopdrachten de rekenbehoeften van datacenters konden verdubbelen. De TPU, ontworpen voor de interne belasting van de zoekmachine, werd vervolgens snel ontwikkeld en ingezet, met enorme winst ten opzichte van de toenmalige CPU's en GPU's bij bepaalde workloads.

AWS volgde met Trainium, bedoeld om de trainingskosten te verlagen ten opzichte van GPU-instanties. Microsoft generaliseerde Azure Cobalt 100, een eigen Arm-CPU die bedoeld was om de algemene cloud-belasting te optimaliseren, met een betere prijs/prestatieverhouding dan de vorige Arm-generatie.

De gemeenschappelijke factor is dus niet de exacte aard van de chip. TPU en Trainium zijn AI-versnellers; Cobalt 100 is een Arm-CPU; de projecten van ByteDance betreffen Arm- en RISC-V-CPU's. De gemeenschappelijke factor is dieper: wanneer een speler een voldoende schaal bereikt, probeert hij een deel van zijn silicium te internaliseren om zijn eigen lasten te optimaliseren in plaats van volledig afhankelijk te zijn van de standaardmarkt.

ByteDance volgt deze logica. Maar zijn geval verschilt op een essentieel punt: de Amerikaanse hyperscalers konden rekenen op TSMC en een geavanceerde toeleveringsketen. De fabrikant van de toekomstige ByteDance-CPU's is niet aangekondigd.

SMIC is niet TSMC: een structurerende hypothese, geen detail

De fabrikant is de grote blinde vlek in het dossier. Reuters vermeldt niet wie de toekomstige CPU's van ByteDance zou produceren. Sommige analisten noemen SMIC als een waarschijnlijke optie, gezien de exportbeperkingen en de geopolitieke context, maar deze hypothese is niet bevestigd.

Toch verandert het radicaal de economische berekening. De precedenten van Google, AWS of Microsoft zijn gebaseerd op de toegang tot de beste fabricageknooppunten van TSMC. Als ByteDance op SMIC zou moeten vertrouwen, zou het verschil in rendement, energiedichtheid en kosten per wafer centraal worden.

Met andere woorden, verticale integratie garandeert niet automatisch winst. Het heeft alleen zin als de totale kosten - ontwerp, fabricage, rendement, verbruik, softwareonderhoud, productievolume en datacenterintegratie - lager of strategisch voordeliger worden dan de aankoop van CPU's van Intel of AMD.

In het geval van ByteDance kan de motivatie dus zowel defensief als offensief zijn: de bevoorrading veiligstellen, de afhankelijkheid van Intel en AMD verminderen, de CPU aanpassen aan interne lasten, maar ook een initiële meerkost accepteren om op lange termijn meer controle te krijgen.

Belangrijk: SMIC blijft een hypothese, geen vaststaand feit. Maar als deze hypothese wordt bevestigd, moet de vergelijking met de Amerikaanse hyperscalers sterk worden genuanceerd: het ontwikkelen van je eigen chip levert niet dezelfde voordelen op, afhankelijk van de toegang tot de beste fabricageknooppunten ter wereld.

Een hybride hardwarestrategie, geen ontsnapping uit de westerse vergrendeling

De ontwikkeling van eigen CPU's betekent niet dat ByteDance uit de westerse hardwarevergrendeling stapt. Integendeel, de beschikbare informatie schetst een veel hybride strategie.

ByteDance zou zijn investeringsplan voor 2026 hebben verhoogd tot 200 miljard yuan, ongeveer 29,4 miljard dollar, een stijging van 25% ten opzichte van een initiële enveloppe van 160 miljard. In het initiële plan zouden 85 miljard yuan zijn bestemd voor AI-chips. Maar de gedetailleerde verdeling van de herziene enveloppe is niet openbaar gemaakt.

Tegelijkertijd meldde Bloomberg dat Qualcomm een contract zou hebben gewonnen om miljoenen op maat gemaakte AI-ASIC's te leveren aan de datacenters van ByteDance. De groep zou ook miljarden dollars besteden aan Huawei Ascend-chips. Nvidia blijft echter moeilijk te vervangen voor grootschalige pre-training workloads, ondanks exportbeperkingen.

Deze combinatie spreekt de idee van een duidelijke breuk tegen. ByteDance lijkt niet te kiezen tussen Nvidia, Huawei, Qualcomm, Arm, RISC-V en zijn eigen ontwikkelingen. Het maakt afwegingen tussen verschillende hardwarelagen afhankelijk van het gebruik: training, inferentie, agenten, interne cloud, beschikbaarheid, kosten, naleving en geopolitieke beperkingen.

De strategie lijkt minder op een zoektocht naar autarkie dan op een industriële verzekering: niet langer afhankelijk zijn van één enkele leverancier, één enkele architectuur of één enkel exportregime.

Waarom agentische inferentie de berekening verandert

Het belangrijkste element van het dossier is misschien wel het minst spectaculaire: agentische AI verplaatst het zwaartepunt van de kosten.

In een klassieke chatbot zijn de meeste zichtbare kosten gerelateerd aan het model en de versneller die de inferentie uitvoert. In een agentisch systeem kan elke reactie een keten van acties activeren: planning, zoeken, een tool aanroepen, verificatie, tussentijdse generatie, uitvoering, correctie, nieuwe aanvraag en uiteindelijke weergave.

Op grote schaal verbruiken deze lussen niet alleen GPU's. Ze mobiliseren de hele infrastructuur. De CPU wordt dan een centraal onderdeel van de kost per taak, en niet langer slechts een servercommodity.

Dit maakt het geval ByteDance interessant. Met Doubao en Coze probeert de groep niet alleen gesprekken te voeren. Het bouwt een infrastructuur voor agenten die in staat zijn tot actie, het orkestreren van services en het vermenigvuldigen van machine-machine-interacties. Op dit niveau is de materiaaloptimalisatie niet langer gericht op brute prestaties. Het richt zich op de marginale kosten van elke agentische actie.

Een gok die nog lang niet gewonnen is

Het project is echter nog lang niet volwassen. Het ontwerpen van een competitieve server-CPU vereist aanzienlijke hardware-, software- en industriële expertise. Men moet de cores ontwikkelen of aanpassen, het verbruik optimaliseren, softwarecompatibiliteit garanderen, de compilers onderhouden, de fabricageketen beveiligen, volumes garanderen en interne teams overtuigen om hun lasten te migreren.

De grote successen van eigen silicium zijn zelden gebaseerd op de chip alleen. Ze zijn gebaseerd op een complete stack: hardware, laag-niveau software, interne frameworks, gestabiliseerde workloads, massale volumes en het vermogen om de kosten over meerdere jaren af te schrijven.

ByteDance heeft het volume. Het heeft ook een duidelijke economische druk. Maar het heeft nog niet aangetoond dat het in staat is om deze beperkingen om te zetten in een materieel voordeel vergelijkbaar met dat van Google, Amazon of Microsoft.

Het project moet daarom worden gelezen voor wat het is: geen onmiddellijke revolutie van de server-CPU-markt, maar een strategisch signaal. Naarmate agentische AI de belastingprofielen verandert, kunnen grote spelers zich niet langer beperken tot het kopen van standaardcomponenten. Ze streven ernaar om de hardwarelagen te beheersen die hun kost per token, beschikbaarheid en operationele onafhankelijkheid bepalen.

Een strijd om de totale kosten

De ontwikkeling van Arm- en RISC-V-CPU's door ByteDance markeert een stap in de industrialisatie van AI op zeer grote schaal. Na de slag om de modellen, en vervolgens die van de GPU's, opent zich een andere strijd: die van de totale uitvoeringskosten.

In deze strijd zal de winnaar niet alleen degene zijn met het beste model of de beste versneller. Het zal degene zijn die de hardwarearchitectuur, software, orkestratie, bevoorrading en eenheidskosten kan afstemmen op zijn eigen gebruik.

ByteDance heeft deze weddenschap nog niet gewonnen. Maar met Doubao, Coze en zijn inferentievolumes heeft de groep nu een economische reden om het te proberen.