ByteDance își dezvoltă propriile CPU Arm și RISC-V pentru a controla costul per token

Cu Doubao, ByteDance afirmă că procesează 120.000 de miliarde de tokeni pe zi. La această scară, provocarea hardware nu mai este limitată doar la GPU-urile Nvidia: CPU-urile server, mult timp trecute pe plan secundar în dezbaterea despre IA, devin din nou o variabilă strategică. Potrivit Reuters, grupul chinez dezvoltă două familii de procesoare proprii, una bazată pe Arm, cealaltă pe RISC-V, pentru a sprijini desfășurarea agenților săi IA prin Coze și pentru a-și reduce dependența de Intel și AMD.

ByteDance ar fi atins un prag industrial. În martie 2026, Doubao procesa 120.000 de miliarde de tokeni pe zi - 120 trilioane în sens anglo-american - conform cifrelor publicate de Volcano Engine și preluate de TechNode. Utilizarea s-ar fi dublat în trei luni și ar fi crescut de o mie de ori de la lansarea publică a modelului în mai 2024.

La acest nivel de trafic, costul de inferență nu mai depinde doar de prețul acceleratorilor IA. Depinde și de întreaga stivă de server: CPU, memorie, orchestrare, apeluri de unelte, acces la baze de date, rețea, cozi de așteptare, latență și disponibilitate. În acest context, Reuters a dezvăluit, pe 28 mai 2026, că ByteDance dezvoltă propriile procesoare centrale conform a două direcții: o arhitectură Arm, proprietate a SoftBank, și o arhitectură RISC-V, set de instrucțiuni deschise.

Programul este legat de desfășurarea extinsă a agenților IA prin Coze, platforma agentică a grupului. Motivația sa imediată este atât economică, cât și strategică: Intel ar fi notificat clienții săi chinezi despre întârzieri de livrare de până la șase luni pentru anumite CPU-uri server, cu creșteri de preț de 10 până la 35% pe trimestru conform Reuters. Pentru ByteDance, miza nu este doar să „facă precum hyperscalerii americani”, ci să securizeze baza materială a unui IA utilizat la o scară masivă.

Bătălia IA nu se joacă doar pe GPU-uri

De doi ani, dezbaterea hardware despre IA s-a concentrat pe Nvidia, restricțiile de export americane, GPU-urile H100/H200/B200 și alternativele chineze precum Huawei Ascend. Acest cadru este necesar, dar incomplet.

GPU-urile și acceleratorii IA rămân centrali pentru antrenarea modelelor mari și pentru sarcinile de inferență cele mai intensive. Dar agenții IA introduc o altă constrângere. Un agent nu se mulțumește doar să genereze un răspuns lung într-o singură trecere. Planifică, apelează unelte, verifică rezultate, relansează subtâche, consultă baze documentare, execută cod, interacționează cu API-uri și multiplică buclele de raționament.

În acest tip de sarcină, CPU-ul server devine din nou critic. Nu înlocuiește acceleratorul IA, dar condiționează costul complet al inferenței: orchestrarea apelurilor, latența între componente, gestionarea sesiunilor, securitatea, programarea, preprocesarea, postprocesarea și execuția funcțiilor apelate de agenți.

Este această dimensiune pe care ByteDance pare să dorească să o preia în control. Proiectul dezvăluit de Reuters nu trebuie deci citit ca o încercare de a înlocui direct Nvidia cu CPU-uri proprii. Este mai degrabă o mișcare de integrare verticală pe baza server care înconjoară sarcinile IA, în special sarcinile de inferență agentică.

O piață server chineză care alunecă dincolo de Intel

Schimbarea nu privește doar ByteDance. Potrivit unui studiu UBS din ianuarie 2026 citat de Business Times, cota de piață a Intel pe procesoarele server în China ar fi scăzut de la peste 90% în 2019 la aproximativ 60% în 2025. În aceeași perioadă, AMD ar fi crescut de la aproximativ 5% la peste 20%.

Această evoluție are două consecințe. În primul rând, Intel nu mai este în situație de cvasi-monopol pe serverul chinez. În al doilea rând, marii clienți chinezi au acum o motivație mai puternică să-și diversifice stiva materială, mai ales când întârzierile, prețurile și restricțiile geopolitice cresc simultan.

China reprezintă mai mult de 20% din cifra de afaceri totală a Intel. Dar penuria de pe Xeon de a patra și a cincea generație a făcut ca această dependență să fie mai costisitoare pentru clienții locali. În acest context, dezvoltarea de CPU-uri proprii de către ByteDance se înscrie într-o mișcare mai amplă: cea a unei migrații progresive a marilor editori chinezi către arhitecturi mai bine controlate, fie că sunt Arm, RISC-V sau provenite de la furnizori naționali.

Programul rămâne totuși embrionar. ByteDance și-a constituit echipa de proiectare hardware abia în 2022. Grupul dispune deci de o experiență limitată față de Apple, Google, Amazon sau Microsoft, care acumulează de cincisprezece-douăzeci de ani competențele necesare dezvoltării propriilor cipuri.

Precedentul hyperscalerilor: un prag de trafic, nu o simplă reacție la sancțiuni

Mișcarea ByteDance amintește de cea a marilor hyperscaleri americani. Google, AWS și Microsoft nu și-au dezvoltat cipurile proprii doar din motive de suveranitate sau de comunicare strategică. Le-au dezvoltat când un prag de trafic, cost sau performanță a făcut modelul de achiziție standard insuficient.

La Google, decizia de a dezvolta un accelerator dedicat IA a fost declanșată în 2013 când o proiecție internă a arătat că căutarea vocală putea dubla nevoile de calcul ale datacenterelor. TPU, conceput pentru sarcinile interne ale motorului, a fost apoi dezvoltat și implementat rapid, cu câștiguri masive față de CPU-urile și GPU-urile contemporane pe anumite workload-uri.

AWS a urmat cu Trainium, gândit pentru a reduce costul de antrenare față de instanțele GPU. Microsoft a generalizat Azure Cobalt 100, un CPU Arm propriu destinat să optimizeze sarcinile cloud generale, cu un raport preț/performanță mai bun decât generația Arm precedentă.

Punctul comun nu este deci natura exactă a cipului. TPU și Trainium sunt acceleratori IA; Cobalt 100 este un CPU Arm; proiectele ByteDance se referă la CPU-uri Arm și RISC-V. Punctul comun este mai profund: când un actor atinge o scară suficientă, caută să internalizeze o parte din siliciul său pentru a-și optimiza propriile sarcini în loc să depindă în întregime de piața standard.

ByteDance intră în această logică. Dar cazul său diferă pe un punct esențial: hyperscalerii americani au putut să se bazeze pe TSMC și pe un lanț de aprovizionare avansat. Fonderia viitoarelor CPU ByteDance nu a fost anunțată.

SMIC nu este TSMC: o ipoteză structurantă, nu un detaliu

Fonderia este marele punct nevralgic al dosarului. Reuters nu precizează cine ar fabrica viitoarele CPU-uri ale ByteDance. Anumiți analiști menționează SMIC ca opțiune probabilă, având în vedere restricțiile de export și contextul geopolitic, dar această ipoteză nu este confirmată.

Schimbă totuși radical calculul economic. Precedentele Google, AWS sau Microsoft se bazează pe o capacitate de acces la cele mai bune noduri de fabricație ale TSMC. Dacă ByteDance ar trebui să se bazeze pe SMIC, diferența de randament, densitate energetică și cost pe wafer ar deveni centrală.

Cu alte cuvinte, integrarea verticală nu garantează automat un câștig. Are sens doar dacă costul total - proiectare, fabricație, randament, consum, întreținere software, volum de producție și integrare datacenter - devine inferior sau strategic preferabil achiziției de CPU-uri Intel sau AMD.

În cazul ByteDance, motivația poate fi deci atât defensivă cât și ofensivă: securizarea aprovizionării, reducerea dependenței de Intel și AMD, adaptarea CPU-ului la sarcinile interne, dar și acceptarea unui supracost inițial pentru a câștiga în control pe termen lung.

De reținut: SMIC rămâne o ipoteză, nu un fapt stabilit. Dar dacă această ipoteză se confirmă, comparația cu hyperscalerii americani va trebui să fie puternic nuanțată: dezvoltarea propriei cipuri nu produce aceleași câștiguri în funcție de accesul sau nu la cele mai bune noduri de fabricație mondiale.

O strategie materială hibridă, nu o ieșire din blocajul occidental

Dezvoltarea de CPU-uri proprii nu înseamnă că ByteDance iese din blocajul material occidental. Dimpotrivă, informațiile disponibile conturează o strategie mult mai hibridă.

ByteDance ar fi ridicat planul său de investiții 2026 la 200 de miliarde de yuani, adică aproximativ 29,4 miliarde de dolari, în creștere cu 25% față de un buget inițial de 160 de miliarde. În planul inițial, 85 de miliarde de yuani ar fi fost direcționați către cipurile IA. Dar ventilația detaliată a bugetului revizuit nu a fost făcută publică.

În paralel, Bloomberg a raportat că Qualcomm ar fi obținut un contract pentru a furniza milioane de ASIC-uri IA personalizate pentru datacenterele ByteDance. Grupul ar investi de asemenea mai multe miliarde de dolari în cipurile Huawei Ascend. Nvidia ar rămâne totuși dificil de înlocuit pe sarcinile de pre-antrenare la scară mare, în ciuda restricțiilor de export.

Această combinație contrazice ideea unei ruperi nete. ByteDance nu pare să aleagă între Nvidia, Huawei, Qualcomm, Arm, RISC-V și propriile dezvoltări. Arbitrează între mai multe straturi materiale în funcție de utilizări: antrenare, inferență, agenți, cloud intern, disponibilitate, cost, conformitate și constrângeri geopolitice.

Strategia seamănă mai puțin cu o căutare a autarhiei și mai mult cu o asigurare industrială: a nu mai depinde de un singur furnizor, de o singură arhitectură, de un singur regim de export.

De ce inferența agentică schimbă calculul

Elementul cel mai important al dosarului este poate cel mai puțin spectaculos: IA agentică deplasează centrul de greutate al costului.

Într-un chatbot clasic, esențialul costului vizibil este legat de model și de acceleratorul care execută inferența. Într-un sistem agentic, fiecare răspuns poate declanșa un lanț de acțiuni: planificare, căutare, apel la un instrument, verificare, generare intermediară, execuție, corectare, nouă cerere și restituire finală.

La scară mare, aceste bucle nu consumă doar GPU-uri. Ele mobilizează întreaga infrastructură. CPU-ul devine atunci o piesă centrală a costului per sarcină, și nu doar o comoditate server.

Acesta este ceea ce face cazul ByteDance interesant. Cu Doubao și Coze, grupul nu caută doar să servească conversații. Construiește o infrastructură pentru agenți capabili să acționeze, să orchestreze servicii și să multiplice interacțiunile mașină-mașină. La acest nivel, optimizarea materială nu vizează doar performanța brută. Vizează costul marginal al fiecărei acțiuni agentice.

Un pariu încă departe de a fi câștigat

Proiectul rămâne totuși departe de a fi matur. Proiectarea unui CPU server competitiv necesită o expertiză materială, software și industrială considerabilă. Trebuie să dezvolți sau să adaptezi nucleele, să optimizezi consumul, să asiguri compatibilitatea software, să menții compilatoare, să securizezi lanțul de fabricație, să garantezi volumele și să convingi echipele interne să migreze sarcinile lor.

Marii succesuri ale siliciului propriu se bazează rar pe cipul singur. Se bazează pe un întreg stack: hardware, software de nivel jos, cadre interne, workload-uri stabilizate, volume masive și capacitatea de a amortiza costurile pe mai mulți ani.

ByteDance dispune de volum. Dispune și de o presiune economică evidentă. Dar încă nu a demonstrat că poate transforma aceste constrângeri într-un avantaj material comparabil cu cel al Google, Amazon sau Microsoft.

Proiectul trebuie deci citit pentru ceea ce este: nu o revoluție imediată a pieței CPU server, ci un semnal strategic. Pe măsură ce IA agentică schimbă profilurile de sarcină, marii actori nu mai pot să se limiteze la a cumpăra componente standard. Ei caută să controleze straturile materiale care determină costul lor per token, disponibilitatea lor și independența lor operațională.

O bătălie a costului complet

Dezvoltarea de CPU-uri Arm și RISC-V de către ByteDance marchează o etapă în industrializarea IA la foarte mare scară. După bătălia modelelor, apoi cea a GPU-urilor, se deschide o altă bătălie: cea a costului complet de execuție.

În această bătălie, câștigătorul nu va fi doar cel care va avea cel mai bun model sau cel mai bun accelerator. Va fi cel care va ști să alinieze arhitectura materială, software-ul, orchestrarea, aprovizionarea și costurile unitare pe propriile sale utilizări.

ByteDance nu a câștigat încă acest pariu. Dar cu Doubao, Coze și volumele sale de inferență, grupul are acum o motivație economică să îl încerce.