ByteDance prepara i propri CPU Arm e RISC-V per riprendere il controllo del costo per token

Con Doubao, ByteDance afferma di elaborare 120.000 miliardi di token al giorno. A questa scala, la questione hardware non si limita più alle GPU Nvidia: i CPU server, a lungo relegati in secondo piano nel dibattito sull'IA, stanno diventando una variabile strategica. Secondo Reuters, il gruppo cinese sta sviluppando due famiglie di processori interni, una basata su Arm e l'altra su RISC-V, per supportare il dispiegamento dei suoi agenti IA tramite Coze e ridurre la dipendenza da Intel e AMD.

ByteDance avrebbe raggiunto una soglia industriale. A marzo 2026, Doubao elaborava 120.000 miliardi di token al giorno - 120 trillion nel senso anglo-americano - secondo i dati pubblicati da Volcano Engine e diffusi da TechNode. L'uso sarebbe raddoppiato in tre mesi e moltiplicato per mille dal lancio pubblico del modello a maggio 2024.

A questo livello di traffico, il costo di inferenza non dipende più solo dal prezzo degli acceleratori IA. Dipende anche dall'intera pila server: CPU, memoria, orchestrazione, chiamate strumenti, accesso a basi di dati, rete, code, latenza e disponibilità. È in questo contesto che Reuters ha rivelato, il 28 maggio 2026, che ByteDance sta sviluppando i propri processori centrali secondo due percorsi: un'architettura Arm, di proprietà di SoftBank, e un'architettura RISC-V, insieme di istruzioni aperto.

Il programma è legato all'ampio dispiegamento degli agenti IA tramite Coze, la piattaforma agentica del gruppo. La motivazione immediata è economica tanto quanto strategica: Intel avrebbe notificato ai suoi clienti cinesi ritardi di consegna fino a sei mesi su alcuni CPU server, con aumenti tariffari dal 10 al 35% per trimestre secondo Reuters. Per ByteDance, la sfida non è quindi solo "fare come gli hyperscaler americani", ma garantire la base hardware di un IA utilizzata su larga scala.

La battaglia IA non si gioca solo sulle GPU

Negli ultimi due anni, il dibattito hardware sull'IA si è concentrato su Nvidia, le restrizioni all'esportazione americane, le GPU H100/H200/B200 e le alternative cinesi come Huawei Ascend. Questo inquadramento è necessario, ma incompleto.

Le GPU e gli acceleratori IA rimangono centrali per l'addestramento di modelli grandi e per i carichi di inferenza più intensivi. Ma gli agenti IA introducono un'altra limitazione. Un agente non si limita a generare una risposta lunga in un unico passaggio. Pianifica, chiama strumenti, verifica risultati, rilancia sotto-compiti, consulta basi documentarie, esegue codice, interagisce con API e moltiplica i cicli di ragionamento.

In questo tipo di carico, il CPU server torna a essere critico. Non sostituisce l'acceleratore IA, ma condiziona il costo completo dell'inferenza: orchestrazione delle chiamate, latenza tra componenti, gestione delle sessioni, sicurezza, scheduling, pre-trattamento, post-trattamento e esecuzione delle funzioni chiamate dagli agenti.

È questo strato che ByteDance sembra voler riprendere in mano. Il progetto rivelato da Reuters non deve quindi essere letto come un tentativo di sostituire direttamente Nvidia con CPU interne. Si tratta piuttosto di un movimento di integrazione verticale sulla base server che circonda i carichi IA, in particolare i carichi di inferenza agentica.

Un mercato server cinese che scivola fuori da Intel

L'inflessione non riguarda solo ByteDance. Secondo uno studio UBS di gennaio 2026 citato da Business Times, la quota di mercato di Intel sui processori server in Cina sarebbe passata da oltre il 90% nel 2019 a circa il 60% nel 2025. Nello stesso periodo, AMD sarebbe passata da circa il 5% a oltre il 20%.

Questa evoluzione ha due conseguenze. Innanzitutto, Intel non è più in una situazione di quasi monopolio sul server cinese. In secondo luogo, i grandi clienti cinesi hanno ora un incentivo maggiore a diversificare la loro pila hardware, soprattutto quando i ritardi, i prezzi e le restrizioni geopolitiche aumentano contemporaneamente.

La Cina rappresenta più del 20% del fatturato totale di Intel. Ma la carenza sui Xeon di quarta e quinta generazione ha reso questa dipendenza più costosa per i clienti locali. In questo contesto, lo sviluppo di CPU interne da parte di ByteDance si inserisce in un movimento più ampio: quello di una migrazione progressiva dei grandi editori cinesi verso architetture meglio controllate, che siano Arm, RISC-V o provenienti da fornitori nazionali.

Il programma è comunque embrionale. ByteDance ha costituito il suo team di progettazione hardware solo nel 2022. Il gruppo dispone quindi di un'esperienza limitata rispetto ad Apple, Google, Amazon o Microsoft, che accumulano da quindici a vent'anni le competenze necessarie per lo sviluppo dei propri chip.

Il precedente degli hyperscaler: una soglia di traffico, non una semplice reazione alle sanzioni

Il movimento di ByteDance ricorda quello dei grandi hyperscaler americani. Google, AWS e Microsoft non hanno sviluppato i propri chip interni solo per ragioni di sovranità o di comunicazione strategica. Lo hanno fatto quando una soglia di traffico, costo o prestazione ha reso il modello di acquisto standard insufficiente.

In Google, la decisione di sviluppare un acceleratore dedicato all'IA è stata innescata nel 2013, quando una proiezione interna ha mostrato che la ricerca vocale poteva raddoppiare le esigenze di calcolo dei datacenter. Il TPU, concepito per i carichi interni del motore, è stato poi sviluppato e distribuito a grande velocità, con guadagni massicci rispetto ai CPU e GPU contemporanei su alcuni workload.

AWS ha seguito con Trainium, pensato per ridurre il costo di addestramento rispetto alle istanze GPU. Microsoft ha generalizzato Azure Cobalt 100, un CPU Arm interno destinato a ottimizzare i carichi cloud generali, con un miglior rapporto prezzo/prestazioni rispetto alla generazione Arm precedente.

Il punto comune non è quindi la natura esatta del chip. TPU e Trainium sono acceleratori IA; Cobalt 100 è un CPU Arm; i progetti di ByteDance riguardano CPU Arm e RISC-V. Il punto comune è più profondo: quando un attore raggiunge una scala sufficiente, cerca di internalizzare una parte del suo silicio per ottimizzare i propri carichi piuttosto che dipendere interamente dal mercato standard.

ByteDance entra in questa logica. Ma il suo caso differisce su un punto essenziale: gli hyperscaler americani hanno potuto contare su TSMC e su una catena di approvvigionamento avanzata. Il fonder dei futuri CPU ByteDance non è stato annunciato.

SMIC non è TSMC: un'ipotesi strutturante, non un dettaglio

Il fonder è il grande angolo cieco del dossier. Reuters non precisa chi fabbricherebbe i futuri CPU di ByteDance. Alcuni analisti evocano SMIC come opzione probabile, data le restrizioni all'esportazione e il contesto geopolitico, ma questa ipotesi non è confermata.

Cambia però radicalmente il calcolo economico. I precedenti Google, AWS o Microsoft si basano su una capacità di accesso ai migliori nodi di fabbricazione di TSMC. Se ByteDance dovesse contare su SMIC, la differenza di rendimento, di densità energetica e di costo per wafer diventerebbe centrale.

In altre parole, l'integrazione verticale non garantisce automaticamente un guadagno. Ha senso solo se il costo totale - progettazione, fabbricazione, rendimento, consumo, manutenzione software, volume di produzione e integrazione datacenter - diventa inferiore o strategicamente preferibile all'acquisto di CPU Intel o AMD.

Nel caso di ByteDance, la motivazione può quindi essere tanto difensiva quanto offensiva: garantire l'approvvigionamento, ridurre la dipendenza da Intel e AMD, adattare il CPU ai carichi interni, ma anche accettare un sovraccosto iniziale per guadagnare in controllo nel tempo.

Da ricordare: SMIC rimane un'ipotesi, non un fatto stabilito. Ma se questa ipotesi si conferma, il confronto con gli hyperscaler americani dovrà essere fortemente sfumato: sviluppare il proprio chip non produce gli stessi guadagni a seconda che si acceda o meno ai migliori nodi di fabbricazione mondiali.

Una strategia hardware ibrida, non un'uscita dal blocco occidentale

Lo sviluppo di CPU interne non significa che ByteDance esca dal blocco hardware occidentale. Al contrario, le informazioni disponibili delineano una strategia molto più ibrida.

ByteDance avrebbe portato il suo piano di investimento 2026 a 200 miliardi di yuan, cioè circa 29,4 miliardi di dollari, in aumento del 25% rispetto a una dotazione iniziale di 160 miliardi. Nel piano iniziale, 85 miliardi di yuan sarebbero stati destinati ai chip IA. Ma la ventilazione dettagliata della dotazione rivista non è stata resa pubblica.

In parallelo, Bloomberg ha riportato che Qualcomm avrebbe vinto un contratto per fornire milioni di ASIC IA personalizzati ai datacenter di ByteDance. Il gruppo dedicherebbe anche diversi miliardi di dollari ai chip Huawei Ascend. Nvidia rimarrebbe comunque difficile da sostituire sui carichi di pre-addestramento su larga scala, nonostante le restrizioni all'esportazione.

Questa combinazione contraddice l'idea di una rottura netta. ByteDance non sembra scegliere tra Nvidia, Huawei, Qualcomm, Arm, RISC-V e i propri sviluppi. Arbitra tra diversi strati hardware a seconda degli usi: addestramento, inferenza, agenti, cloud interno, disponibilità, costo, conformità e vincoli geopolitici.

La strategia somiglia meno a una ricerca di autarchia che a un'assicurazione industriale: non dipendere più da un unico fornitore, né da un'unica architettura, né da un solo regime di esportazione.

Perché l'inferenza agentica cambia il calcolo

L'elemento più importante del dossier è forse il meno spettacolare: l'IA agentica sposta il centro di gravità del costo.

In un chatbot classico, l'essenziale del costo visibile è legato al modello e all'acceleratore che esegue l'inferenza. In un sistema agentico, ogni risposta può innescare una catena di azioni: pianificazione, ricerca, chiamata a uno strumento, verifica, generazione intermedia, esecuzione, correzione, nuova richiesta e restituzione finale.

Su larga scala, questi cicli non consumano solo GPU. Mobilitano l'intera infrastruttura. Il CPU diventa allora un pezzo centrale del costo per compito, e non più solo una comodità server.

È ciò che rende il caso ByteDance interessante. Con Doubao e Coze, il gruppo non cerca solo di servire conversazioni. Costruisce un'infrastruttura per agenti capaci di agire, orchestrare servizi e moltiplicare le interazioni macchina-macchina. A questo livello, l'ottimizzazione hardware non punta più solo alla performance bruta. Punta al costo marginale di ogni azione agentica.

Una scommessa ancora lontana dall'essere vinta

Il progetto rimane comunque lontano dall'essere maturo. Progettare un CPU server competitivo richiede un'esperienza hardware, software e industriale considerevole. Bisogna sviluppare o adattare i core, ottimizzare il consumo, assicurare la compatibilità software, mantenere i compilatori, garantire la catena di fabbricazione, assicurare i volumi e convincere i team interni a migrare i loro carichi.

I grandi successi del silicio interno raramente si basano solo sul chip. Si basano su una pila completa: hardware, software di basso livello, framework interni, workload stabilizzati, volumi massicci e capacità di ammortizzare i costi su più anni.

ByteDance dispone del volume. Dispone anche di una pressione economica evidente. Ma non ha ancora dimostrato di poter trasformare questi vincoli in un vantaggio hardware paragonabile a quello di Google, Amazon o Microsoft.

Il progetto deve quindi essere letto per ciò che è: non una rivoluzione immediata del mercato dei CPU server, ma un segnale strategico. A misura che l'IA agentica cambia i profili di carico, i grandi attori non possono più accontentarsi di acquistare componenti standard. Cercano di controllare gli strati hardware che determinano il loro costo per token, la loro disponibilità e la loro indipendenza operativa.

Una battaglia del costo completo

Lo sviluppo di CPU Arm e RISC-V da parte di ByteDance segna una tappa nell'industrializzazione dell'IA su grande scala. Dopo la battaglia dei modelli, poi quella delle GPU, si apre un'altra battaglia: quella del costo completo di esecuzione.

In questa battaglia, il vincitore non sarà solo chi avrà il miglior modello o il miglior acceleratore. Sarà chi saprà allineare architettura hardware, software, orchestrazione, approvvigionamento e costi unitari sui propri usi.

ByteDance non ha ancora vinto questa scommessa. Ma con Doubao, Coze e i suoi volumi di inferenza, il gruppo ha ormai una ragione economica per tentarla.