ByteDance 准备自有的 Arm 和 RISC-V CPU，以控制单词处理成本

通过 Doubao，ByteDance 声称每天处理 120 000 万亿个 token。在这种规模下，硬件问题不再仅仅局限于 Nvidia 的 GPU：服务器 CPU，这个在人工智能讨论中长期处于次要地位的部分，重新成为战略变量。根据路透社的报道，这家中国集团正在开发两类自主处理器，一类基于 Arm，另一类基于 RISC-V，以支持其通过 Coze 部署的人工智能代理，并减少对 Intel 和 AMD 的依赖。

据报道，ByteDance 已经跨过了一个工业门槛。根据 Volcano Engine 发布的统计数据以及 TechNode 的报道，2026 年 3 月，Doubao 每天处理 120 000 万亿个 token - 在英美术语中意为 120 trillion。使用量在三个月内翻了一番，自 2024 年 5 月公开发布模型以来增加了千倍。

在如此高的流量水平上，推理成本不仅仅取决于人工智能加速器的价格。它还取决于整个服务器堆栈：CPU、内存、编排、调用工具、数据库访问、网络、队列、延迟和可用性。在这种背景下，路透社在 2026 年 5 月 28 日透露，ByteDance 正在根据两条路线开发自己的中央处理器：一种是由 SoftBank 拥有的 Arm 架构，另一种是开放指令集的 RISC-V 架构。

该计划与通过 Coze 扩大人工智能代理的部署有关，该公司平台的直接动机既是经济上的，也是战略上的：据路透社报道，Intel 曾通知其中国客户某些服务器 CPU 的交货期长达六个月，季度价格上涨 10% 至 35%。因此，对于 ByteDance 来说，问题不仅仅是“模仿美国的超大规模企业”，而是保障大规模使用的人工智能的硬件基础。

人工智能战斗不仅限于 GPU

在过去两年中，关于人工智能的硬件讨论集中在 Nvidia、美国的出口限制、H100/H200/B200 GPU 及华为 Ascend 等中国替代品上。这种框架是必要的，但并不完整。

GPU 和 AI 加速器对于大模型训练和最密集的推理负载仍然是核心。但人工智能代理引入了另一种约束。一个代理不仅仅是在一遍中生成一个长响应。它计划、调用工具、验证结果、重新启动子任务、查阅文档库、执行代码，与 API 交互并重复推理循环。

在这种类型的负载中，服务器 CPU 再次变得至关重要。它并没有取代 AI 加速器，但它决定了完整的推理成本：调用的协调、组件之间的延迟、会话管理、安全性、调度、预处理、后处理以及代理调用功能的执行。

这正是 ByteDance 似乎想要掌控的层面。路透社揭示的项目因此不应被解读为试图直接用自有 CPU 代替 Nvidia。这更像是对围绕人工智能负载的服务器基础进行的垂直整合，特别是代理推理负载。

一个正在从 Intel 手中滑走的中国服务器市场

这种转变不仅限于 ByteDance。根据 Business Times 援引的 UBS 2026 年 1 月的一项研究，Intel 在中国服务器处理器市场的份额从 2019 年的 90% 以上下降到 2025 年的约 60%。在同一期间，AMD 的份额从约 5% 增至超过 20%。

这种演变有两个结果。首先，Intel 不再对中国服务器市场具有近乎垄断的地位。其次，中国的大客户现在更有动机去多元化其硬件堆栈，特别是在交货期、价格和地缘政治限制同时增加的情况下。

中国代表了 Intel 总收入的 20% 以上。但第四代和第五代 Xeon 的短缺使得这种依赖对本地客户来说成本更高。在这种背景下，ByteDance 开发自主 CPU 是更大趋势的一部分：大型中国出版商逐渐转向更可控的架构，无论是 Arm、RISC-V 还是来自本土供应商的架构。

然而，该计划仍处于初期阶段。ByteDance 直到 2022 年才组建其硬件设计团队。因此，面对 Apple、Google、Amazon 或 Microsoft，这些公司在过去 15 至 20 年间积累了开发自己芯片所需的技能，ByteDance 的经验有限。

超大规模企业的前例：一个交通流量门槛，而非简单对制裁的反应

ByteDance 的行动让人想起美国大型超大规模企业的行为。Google、AWS 和 Microsoft 不仅仅因为主权或战略沟通的原因开发自己的芯片。他们是在某个流量、成本或性能门槛使得标准采购模型不再足够时这么做的。

在 Google，决定开发专用 AI 加速器是在 2013 年做出的，当时一项内部预测显示语音搜索可能会使数据中心的计算需求翻倍。TPU 被设计用于引擎的内部负载，然后快速开发和部署，在某些工作负载上相对于当时的 CPU 和 GPU 实现了大规模收益。

AWS 随后推出了 Trainium，旨在降低 GPU 实例面临的训练成本。Microsoft 推广了 Azure Cobalt 100，这是一款自有的 Arm CPU，旨在优化通用云负载，与上一代 Arm 相比具有更好的价格/性能比。

共同点不在于芯片的确切性质。TPU 和 Trainium 是 AI 加速器；Cobalt 100 是一个 Arm CPU；ByteDance 的项目涉及 Arm 和 RISC-V CPU。共同点更深层次：当一个参与者达到足够的规模时，它会寻求内部化部分硅，以优化自己的负载，而不是完全依赖标准市场。

ByteDance 正在走这条路。但它的情况在一个关键点上有所不同：美国的超大规模企业能够依靠 TSMC 和先进的供应链。ByteDance 未来的 CPU 的代工厂尚未公布。

SMIC 不是 TSMC：一个结构性假设，而不是一个细节

代工厂是这个问题中的一个大盲点。路透社没有指出谁将制造 ByteDance 的未来 CPU。一些分析师提到 SMIC 作为可能的选择，考虑到出口限制和地缘政治背景，但这一假设尚未得到证实。

然而，这根本改变了经济计算。Google、AWS 或 Microsoft 的前例依赖于能够访问 TSMC 的最佳制造节点。如果 ByteDance 必须依赖 SMIC，产量、能效密度和每片晶圆的成本差距将成为核心问题。

换句话说，垂直整合并不自动保证收益。只有当总成本 - 设计、制造、产量、能耗、软件维护、生产量和数据中心整合 - 低于或战略上优于购买 Intel 或 AMD 的 CPU 时，它才有意义。

对于 ByteDance 来说，动机可能既是防御性的也是进攻性的：确保供应，减少对 Intel 和 AMD 的依赖，调整 CPU 以适应内部负载，但也可能接受初期成本增加以换取长期控制。

需要记住的是：SMIC 仍然是一个假设，而不是一个既定事实。但如果这个假设得到证实，与美国超大规模企业的比较将需要大幅调整：开发自己的芯片在是否能获得全球最佳制造节点时所产生的收益并不相同。

一个混合的硬件战略，而非摆脱西方的技术封锁

开发自主 CPU 并不意味着 ByteDance 摆脱了西方的硬件封锁。相反，现有信息描绘出了一种更为混合的战略。

ByteDance 已将其 2026 年的投资计划提高到 2000 亿元人民币，约合 294 亿美元，比最初的 1600 亿元人民币增加了 25%。在最初的计划中，850 亿元人民币被指定用于 AI 芯片。但修订计划的详细分配尚未公布。

与此同时，Bloomberg 报道称 Qualcomm 赢得了一份合同，为 ByteDance 的数据中心提供数百万个定制的 AI ASIC。该集团还将投入数十亿美元用于华为 Ascend 芯片。尽管有出口限制，Nvidia 仍然很难在大型预训练负载上被取代。

这种组合与鲜明的断裂思想相矛盾。ByteDance 似乎并没有在 Nvidia、华为、高通、Arm、RISC-V 及其自身开发之间做出选择。它根据不同用途在多个硬件层次之间进行权衡：训练、推理、代理、内部云、可用性、成本、合规性和地缘政治限制。

这种策略更像是一种工业保险：不再依赖单一供应商、单一架构或单一出口制度。

为什么代理推理改变了计算

这个问题中最重要的元素可能是最不显眼的：代理人工智能改变了成本重心。

在传统聊天机器人中，显而易见的成本主要与模型和执行推理的加速器相关。在代理系统中，每次响应可能触发一个动作链：计划、搜索、调用工具、验证、中间生成、执行、修正、新请求和最终输出。

在大规模下，这些循环不仅消耗 GPU。它们还动员了整个基础设施。CPU 因此成为每个任务成本的核心部分，而不再仅仅是服务器的商品。

这使得 ByteDance 的案例变得有趣。通过 Doubao 和 Coze，该集团不仅仅是想要服务于对话。它正在为能够行动、编排服务和倍增机器-机器交互的代理构建基础设施。在这个水平上，硬件优化不仅仅是针对原始性能。它关注的是每次代理行动的边际成本。

一个尚未赢得的赌注

然而，该项目依然远未成熟。设计一个有竞争力的服务器 CPU 需要巨大的硬件、软件和工业专业知识。必须开发或调整内核、优化功耗、确保软件兼容性、维护编译器、保障生产链、保证生产量并说服内部团队迁移其负载。

自制硅的成功通常不仅仅依赖于芯片本身。它依赖于一个完整的生态系统：硬件、低级软件、内部框架、稳定的工作负载、庞大的生产量和在几年内摊销成本的能力。

ByteDance 拥有生产量。它显然也面临经济压力。但它尚未证明它可以将这些约束转化为与 Google、Amazon 或 Microsoft 相当的硬件优势。

因此，该项目应被解读为它所是的：不是立即对服务器 CPU 市场的革命，而是一种战略信号。随着代理人工智能改变工作负载特征，大型参与者不能再仅仅依靠购买标准组件。他们寻求控制决定其单词处理成本、可用性和操作独立性的硬件层。

完整成本之战

ByteDance 开发 Arm 和 RISC-V CPU 标志着超大规模人工智能工业化的一个阶段。在模型之战和 GPU 之战之后，另一场战斗拉开帷幕：执行的完整成本之战。

在这场战斗中，赢家不仅仅是拥有最佳模型或最佳加速器的人。它将是那些能够根据自身用途调整硬件架构、软件、编排、供应和单位成本的人。

ByteDance 尚未赢得这场赌注。但通过 Doubao、Coze 及其推理量，集团现在有经济理由尝试。