ByteDance bereitet eigene Arm- und RISC-V-CPUs vor, um die Kontrolle über die Kosten pro Token zurückzugewinnen

Mit Doubao verarbeitet ByteDance 120 Billionen Tokens pro Tag. In diesem Maßstab ist die Hardware-Herausforderung nicht mehr auf Nvidia-GPUs beschränkt: Server-CPUs, die im KI-Diskurs lange im Hintergrund standen, werden wieder zu einer strategischen Variable. Laut Reuters entwickelt der chinesische Konzern zwei eigene Prozessortypen, einen basierend auf Arm und einen auf RISC-V, um den Einsatz seiner KI-Agenten über Coze zu unterstützen und seine Abhängigkeit von Intel und AMD zu reduzieren.

ByteDance hat eine industrielle Schwelle überschritten. Im März 2026 verarbeitete Doubao 120 Billionen Tokens pro Tag - 120 Trillion im angloamerikanischen Sinne - laut Zahlen von Volcano Engine, die von TechNode veröffentlicht wurden. Die Nutzung habe sich in drei Monaten verdoppelt und sei seit dem öffentlichen Start des Modells im Mai 2024 um das Tausendfache gestiegen.

Auf diesem Verkehrslevel hängt der Inferenzkosten nicht mehr nur vom Preis der KI-Beschleuniger ab. Er hängt auch von der gesamten Server-Infrastruktur ab: CPU, Speicher, Orchestrierung, Tool-Aufrufe, Datenbankzugriff, Netzwerk, Warteschlangen, Latenz und Verfügbarkeit. In diesem Kontext enthüllte Reuters am 28. Mai 2026, dass ByteDance seine eigenen zentralen Prozessoren entwickelt, basierend auf zwei Ansätzen: einer Arm-Architektur, Eigentum von SoftBank, und einer RISC-V-Architektur, einem offenen Befehlssatz.

Das Programm ist mit der erweiterten Einführung der KI-Agenten über Coze, die agentische Plattform des Unternehmens, verbunden. Seine unmittelbare Motivation ist sowohl wirtschaftlich als auch strategisch: Intel hätte seinen chinesischen Kunden Lieferverzögerungen von bis zu sechs Monaten bei bestimmten Server-CPUs mitgeteilt, mit Preissteigerungen von 10 bis 35 % pro Quartal laut Reuters. Für ByteDance geht es also nicht nur darum, „es den amerikanischen Hyperscalern gleichzutun“, sondern die Hardwarebasis einer KI zu sichern, die in großem Maßstab genutzt wird.

Der KI-Wettlauf wird nicht nur auf GPUs ausgetragen

Seit zwei Jahren konzentriert sich die Hardware-Diskussion über KI auf Nvidia, amerikanische Exportbeschränkungen, die GPUs H100/H200/B200 und chinesische Alternativen wie Huawei Ascend. Dieser Rahmen ist notwendig, aber unvollständig.

GPUs und KI-Beschleuniger bleiben zentral für das Training großer Modelle und die intensivsten Inferenzlasten. Aber KI-Agenten bringen eine andere Herausforderung. Ein Agent generiert nicht einfach eine lange Antwort in einem Durchgang. Er plant, ruft Werkzeuge auf, überprüft Ergebnisse, startet Unteraufgaben neu, konsultiert Dokumentationsdatenbanken, führt Code aus, interagiert mit APIs und vervielfacht Denkschleifen.

Bei dieser Art von Last wird der Server-CPU wieder kritisch. Er ersetzt nicht den KI-Beschleuniger, aber er bestimmt die Gesamtkosten der Inferenz: Orchestrierung der Aufrufe, Latenz zwischen Komponenten, Sitzungsverwaltung, Sicherheit, Scheduling, Vor- und Nachbearbeitung und Ausführung der von den Agenten aufgerufenen Funktionen.

Diese Schicht scheint ByteDance in den Griff bekommen zu wollen. Das von Reuters aufgedeckte Projekt sollte daher nicht als Versuch gelesen werden, Nvidia direkt durch eigene CPUs zu ersetzen. Es handelt sich eher um eine vertikale Integration auf der Serverbasis, die die KI-Lasten, insbesondere die agentischen Inferenzlasten, umgibt.

Ein chinesischer Servermarkt, der Intel verlässt

Die Wende betrifft nicht nur ByteDance. Laut einer UBS-Studie vom Januar 2026, zitiert von Business Times, sei der Marktanteil von Intel bei Serverprozessoren in China von über 90 % im Jahr 2019 auf etwa 60 % im Jahr 2025 gesunken. Im gleichen Zeitraum sei AMD von etwa 5 % auf über 20 % gestiegen.

Diese Entwicklung hat zwei Konsequenzen. Erstens ist Intel nicht mehr in einer Quasi-Monopolstellung auf dem chinesischen Servermarkt. Zweitens haben große chinesische Kunden jetzt einen stärkeren Anreiz, ihre Hardware-Pipeline zu diversifizieren, insbesondere wenn sich Lieferzeiten, Preise und geopolitische Beschränkungen gleichzeitig erhöhen.

China macht mehr als 20 % des Gesamtumsatzes von Intel aus. Aber der Mangel an vierten und fünften Generation Xeon-Prozessoren hat diese Abhängigkeit für lokale Kunden kostspieliger gemacht. In diesem Kontext passt die Entwicklung von eigenen CPUs durch ByteDance in eine breitere Bewegung: die schrittweise Migration großer chinesischer Herausgeber zu besser kontrollierten Architekturen, seien es Arm, RISC-V oder von nationalen Anbietern.

Das Programm ist jedoch noch in den Anfängen. ByteDance hat sein Hardware-Design-Team erst 2022 gegründet. Das Unternehmen hat daher wenig Erfahrung im Vergleich zu Apple, Google, Amazon oder Microsoft, die seit fünfzehn bis zwanzig Jahren die notwendigen Fähigkeiten für die Entwicklung eigener Chips aufbauen.

Das Beispiel der Hyperscaler: eine Schwelle des Verkehrs, keine einfache Reaktion auf Sanktionen

Der Schritt von ByteDance erinnert an den der großen amerikanischen Hyperscaler. Google, AWS und Microsoft haben ihre eigenen Chips nicht nur aus Souveränitätsgründen oder strategischer Kommunikation entwickelt. Sie taten dies, als eine Schwelle von Verkehr, Kosten oder Leistung das Standardkaufmodell unzureichend machte.

Bei Google wurde die Entscheidung zur Entwicklung eines spezialisierten KI-Beschleunigers 2013 getroffen, als eine interne Prognose zeigte, dass die Sprachsuche den Rechenbedarf der Rechenzentren verdoppeln könnte. Der TPU, der für die internen Lasten der Suchmaschine entwickelt wurde, wurde schnell entwickelt und eingesetzt, mit massiven Gewinnen gegenüber den zeitgenössischen CPUs und GPUs bei bestimmten Workloads.

AWS folgte mit Trainium, das darauf ausgelegt war, die Trainingskosten im Vergleich zu GPU-Instanzen zu senken. Microsoft hat Azure Cobalt 100, einen eigenen Arm-CPU, generalisiert, um die allgemeine Cloud-Last zu optimieren, mit einem besseren Preis-Leistungs-Verhältnis als die vorherige Arm-Generation.

Der gemeinsame Punkt ist nicht die genaue Natur des Chips. TPU und Trainium sind KI-Beschleuniger; Cobalt 100 ist ein Arm-CPU; die Projekte von ByteDance betreffen Arm- und RISC-V-CPUs. Der gemeinsame Punkt ist tiefer: Wenn ein Akteur eine ausreichende Skala erreicht, sucht er, einen Teil seines Siliziums zu internalisieren, um seine eigenen Lasten zu optimieren, anstatt vollständig vom Standardmarkt abhängig zu sein.

ByteDance folgt dieser Logik. Aber sein Fall unterscheidet sich in einem wesentlichen Punkt: Die amerikanischen Hyperscaler konnten sich auf TSMC und eine fortschrittliche Lieferkette stützen. Der Hersteller der zukünftigen ByteDance-CPUs wurde nicht angekündigt.

SMIC ist nicht TSMC: eine strukturelle Hypothese, kein Detail

Der Hersteller ist der große blinde Fleck des Dossiers. Reuters spezifiziert nicht, wer die zukünftigen CPUs von ByteDance herstellen würde. Einige Analysten erwähnen SMIC als wahrscheinlichste Option, angesichts der Exportbeschränkungen und des geopolitischen Kontexts, aber diese Hypothese ist nicht bestätigt.

Sie ändert jedoch radikal die wirtschaftliche Berechnung. Die Präzedenzfälle von Google, AWS oder Microsoft beruhen auf der Fähigkeit, auf die besten Fertigungsknoten von TSMC zuzugreifen. Wenn ByteDance auf SMIC angewiesen wäre, würde der Unterschied in Ertrag, Energiedichte und Kosten pro Wafer zentral werden.

Mit anderen Worten, vertikale Integration garantiert nicht automatisch einen Gewinn. Sie macht nur Sinn, wenn die Gesamtkosten - Design, Fertigung, Ertrag, Verbrauch, Softwarewartung, Produktionsvolumen und Rechenzentrum-Integration - niedriger oder strategisch vorzuziehen werden, als der Kauf von Intel- oder AMD-CPUs.

Im Fall von ByteDance kann die Motivation also ebenso defensiv wie offensiv sein: die Versorgung sichern, die Abhängigkeit von Intel und AMD reduzieren, die CPU an interne Lasten anpassen, aber auch anfängliche Mehrkosten akzeptieren, um auf lange Sicht mehr Kontrolle zu gewinnen.

Merke: SMIC bleibt eine Hypothese, kein festgestellter Fakt. Sollte sich diese Hypothese jedoch bestätigen, müsste der Vergleich mit den amerikanischen Hyperscalern stark nuanciert werden: Die Entwicklung eines eigenen Chips führt nicht zu denselben Gewinnen, je nachdem, ob man Zugang zu den besten globalen Fertigungsknoten hat oder nicht.

Eine hybride Hardware-Strategie, kein Ausstieg aus der westlichen Abhängigkeit

Die Entwicklung von eigenen CPUs bedeutet nicht, dass ByteDance aus der westlichen Hardware-Abhängigkeit aussteigt. Im Gegenteil, die verfügbaren Informationen zeichnen eine viel hybridere Strategie.

ByteDance hätte seinen Investitionsplan 2026 auf 200 Milliarden Yuan erhöht, etwa 29,4 Milliarden Dollar, eine Steigerung von 25 % gegenüber einem ursprünglichen Budget von 160 Milliarden. Im ursprünglichen Plan wären 85 Milliarden Yuan für KI-Chips vorgesehen gewesen. Aber die detaillierte Aufschlüsselung des revidierten Budgets wurde nicht veröffentlicht.

Parallel berichtete Bloomberg, dass Qualcomm einen Vertrag gewonnen habe, um Millionen von maßgeschneiderten KI-ASICs an ByteDances Rechenzentren zu liefern. Die Gruppe würde auch mehrere Milliarden Dollar in Huawei Ascend-Chips investieren. Nvidia bliebe jedoch schwer zu ersetzen bei großen Vortrainingslasten, trotz der Exportbeschränkungen.

Diese Kombination widerspricht der Idee einer klaren Trennung. ByteDance scheint nicht zwischen Nvidia, Huawei, Qualcomm, Arm, RISC-V und seinen eigenen Entwicklungen zu wählen. Es wägt zwischen mehreren Hardware-Ebenen je nach Nutzung ab: Training, Inferenz, Agenten, interne Cloud, Verfügbarkeit, Kosten, Compliance und geopolitische Zwänge.

Die Strategie ähnelt weniger einer Suche nach Autarkie als einer industriellen Absicherung: Nicht mehr von einem einzigen Anbieter, einer einzigen Architektur oder einem einzigen Exportregime abhängig zu sein.

Warum die agentische Inferenz die Kalkulation ändert

Das vielleicht wichtigste Element des Dossiers ist das unspektakulärste: Die agentische KI verschiebt das Gravitationszentrum der Kosten.

Bei einem klassischen Chatbot sind die sichtbaren Kosten hauptsächlich mit dem Modell und dem Beschleuniger verbunden, der die Inferenz ausführt. In einem agentischen System kann jede Antwort eine Kette von Aktionen auslösen: Planung, Recherche, Aufruf eines Tools, Überprüfung, Zwischenproduktion, Ausführung, Korrektur, neue Anfrage und finale Ausgabe.

In großem Maßstab verbrauchen diese Schleifen nicht nur GPUs. Sie mobilisieren die gesamte Infrastruktur. Der CPU wird dann zu einem zentralen Teil der Kosten pro Aufgabe und nicht mehr nur zu einer Server-Komponente.

Das macht den Fall ByteDance interessant. Mit Doubao und Coze versucht die Gruppe nicht nur, Gespräche zu bedienen. Sie baut eine Infrastruktur für Agenten auf, die in der Lage sind zu handeln, Dienste zu orchestrieren und maschinenübergreifende Interaktionen zu vervielfachen. Auf dieser Ebene zielt die Hardware-Optimierung nicht mehr nur auf die rohe Leistung ab. Sie zielt auf die Grenzkosten jeder agentischen Aktion.

Eine Wette, die noch lange nicht gewonnen ist

Das Projekt ist jedoch noch weit davon entfernt, ausgereift zu sein. Die Entwicklung eines wettbewerbsfähigen Server-CPUs erfordert beträchtliche Hardware-, Software- und Industrie-Expertise. Es ist notwendig, die Kerne zu entwickeln oder anzupassen, den Verbrauch zu optimieren, die Softwarekompatibilität sicherzustellen, die Compiler zu warten, die Fertigungskette zu sichern, die Volumina zu garantieren und die internen Teams davon zu überzeugen, ihre Lasten zu migrieren.

Die großen Erfolge mit eigenem Silizium beruhen selten auf dem Chip allein. Sie beruhen auf einem vollständigen Stack: Hardware, Low-Level-Software, interne Frameworks, stabilisierte Workloads, massive Volumina und die Fähigkeit, die Kosten über mehrere Jahre zu amortisieren.

ByteDance hat das Volumen. Es hat auch einen offensichtlichen wirtschaftlichen Druck. Aber es hat noch nicht gezeigt, dass es diese Einschränkungen in einen vergleichbaren Hardware-Vorteil wie Google, Amazon oder Microsoft verwandeln kann.

Das Projekt sollte daher für das gelesen werden, was es ist: keine sofortige Revolution des Server-CPU-Marktes, sondern ein strategisches Signal. Da die agentische KI die Lastprofile ändert, können sich die großen Akteure nicht mehr damit begnügen, Standardkomponenten zu kaufen. Sie streben danach, die Hardware-Ebenen zu kontrollieren, die ihre Kosten pro Token, ihre Verfügbarkeit und ihre betriebliche Unabhängigkeit bestimmen.

Ein Wettlauf um die Gesamtkosten

Die Entwicklung von Arm- und RISC-V-CPUs durch ByteDance markiert einen Schritt in der Industrialisierung der KI im sehr großen Maßstab. Nach dem Wettlauf um Modelle und dann um GPUs eröffnet sich ein weiterer Wettlauf: der um die Gesamtkosten der Ausführung.

In diesem Wettlauf wird nicht nur der Gewinner sein, der das beste Modell oder den besten Beschleuniger hat. Es wird derjenige sein, der in der Lage ist, Hardware-Architektur, Software, Orchestrierung, Beschaffung und Stückkosten auf seine eigenen Anwendungen auszurichten.

ByteDance hat diese Wette noch nicht gewonnen. Aber mit Doubao, Coze und seinen Inferenzvolumina hat die Gruppe nun einen wirtschaftlichen Grund, es zu versuchen.