专题 / 深度分析

企业中的AI真正挑战不再是模型,而是其运营化

2026年6月,Google Cloud、AWS、Microsoft 和 Databricks 的重点已从模型竞争转向 AI agents 的运营化。MLOps 正向 AgentOps 演进,核心议题集中在业务上下文、治理、可观测性和推理成本,cloud 也重新成为 AI 的操作系统。

STStephane Nachez · ·3 min
企业中的AI真正挑战不再是模型,而是其运营化
Visuel d'illustration créé avec l'IA
目录

到2026年6月,企业面临的最重要信号不再是又一个LLM的发布,甚至也不是benchmark之战。真正的转向,已在 Google Cloud、AWS、Microsoft 和 Databricks 等厂商身上清晰可见:MLOps 正演变为一种面向 AI agents 的运营学科,同时四个关键议题同步上升——业务上下文、治理、可观测性以及单次推理成本。当各大厂商都围绕 runtime、identity、gateway、memory、traceability 和 continuous evaluation 重新组织发布内容时,这已不再是风潮,而是技术层级的迁移。 

换句话说:在2024年,大家主要问的是该选哪个模型;到了2026年,决定能否进入生产的关键问题,变成了谁来掌控上下文、权限、trace、成本,以及切换供应商的能力。Microsoft 几乎明说了这一点:瓶颈不再是模型能力,而是企业共享上下文。Databricks 则指出,表面可见的 agentic loop 只是工作的一小部分,其余部分则是由安全、部署、监控、成本和质量构成的隐性技术债。AWS 现在强调要基于生产 traces 持续改进。Google 则在推动一个完整平台,用于构建、部署、治理和优化 agents。

不是 AI 进入了 cloud;而是 cloud 重新成为 AI 的操作系统。

各大云厂商都在显现同样的转向

今年春季和6月的各项发布有一个非常明显的共同点。Google Cloud 推出了 Gemini Enterprise Agent Platform,定位为一个用于构建、扩展、治理和优化 agents 的平台,将模型选择、集成工具、DevOps、编排和安全整合到同一层中。在 Google Cloud Next ’26 上,Google 还重点展示了基于 graph 的 Agent Developer Kit,以及用于大规模构建、测试和发布 agents 的 Agent Studio。

在 Microsoft 这边,Build 2026 的信息也几乎同样直白。公司表示,问题不再是模型有多强,而是如何为必须在业务系统中执行动作的 agents 提供一致的数据上下文。Build 2026 官方页面也将多项重点公告列为核心内容,从“observability to ROI for AI agents”到可移植的 agent governance,再到 Foundry 的大规模部署与运行能力。

AWS 则将 Bedrock AgentCore 推向了工业化运营逻辑。其于2026年6月18日发布的新优化能力,重点不在于如何创建 agents,而在于一个闭环:用生产 traces 理解系统发生了什么,修复异常,并证明修复确实提升了系统表现。AWS 甚至用非常直白的方式定义了真正的风险:最危险的故障不是返回错误的故障,而是那些不会立即报错、只会在事后通过客户投诉才暴露出来的静默失效。

Databricks 也用不同的话语表达了同样的判断。在 DAIS 2026 的文章中,这家厂商解释说,agentic loop 只是“可见的1%”,而剩余“99%”属于部署、token capacity、安全、评估、可观测性、上下文和共享等工作。最值得注意的并不只是产品发布本身,而是其框架:对 Databricks 来说,市场问题已经不是如何演示一个 agent,而是如何运营一个可靠的 agentic system。

对于决策者来说,结论很简单:当 Google、AWS、Microsoft 和 Databricks 不约而同地围绕 runtime、identity、memory、gateways、tracing、scoring 和 governance 这些相同的技术积木展开叙述时,这意味着行业正在从“POC + hype”周期进入架构周期。因此,MLOps 的重心正在从模型转向运营链路。

为什么 MLOps 正在变成 AgentOps

这种迁移改变了技术栈的本质。在传统 MLOps 中,核心工作是对数据和模型进行版本管理,部署 endpoint,跟踪少量指标,然后重新运行训练流水线。而在2026年的技术栈中,除了这些,还必须管理 agent runtime、短期和长期 memory、action permissions、外部工具、执行 traces、回答质量、行为合规性,以及多步骤链路的延迟。Google 已经对这一层级进行了明确文档化:Agent Platform 提供 managed runtime、sessions、Memory Bank、logging、tracing、monitoring,以及按 agent 划分的 identity。

其中最有意思的细节,可能是 agent identity 的崛起。在 Google 的文档中,Agent Identity 基于 SPIFFE 标准,采用加密可验证的身份机制,用于让 agent 向 MCP servers、cloud resources、endpoints 和其他 agents 进行认证。换句话说,问题不再只是“谁在调用 API?”,而是“哪个 agent 在行动、代表谁、拥有怎样的权限范围?”这是一项重大变化:安全控制被提升到了自动化行为层面。

AWS 也沿着同一方向推进,通过 AgentCore Gateway 将现有 API、Lambda functions 和服务转换为兼容 Model Context Protocol 的工具,并提供入站与出站认证、开箱即用的集成以及细粒度访问控制。这一层非常关键,因为它把 agents 的世界与真实的信息系统连接起来:CRM、消息系统、工单、文档、数据库、workflow。此时,MLOps 不再只是一个“模型”问题,而是一个平台 + 集成 + 安全的问题。

另一个转折点是质量型可观测性。Databricks 的 MLflow 3 已经将 GenAI 应用和 agents 的跟踪、评估和可观测性统一起来,具备实时 traces、scorers、人工反馈和版本管理。在生产环境中,Databricks 提供的 monitoring 可以自动对 traces 样本运行 scorers,以持续评估质量——这意味着我们不再只是在部署前评估某个版本,而是在上线后评估真实行为。AWS 也以另一种方式表达了同样的意思:AgentCore Observability 提供关于 session 数量、延迟、持续时间、token 使用量和错误率的实时指标,并支持按 metadata 过滤以便调查。

最后,推理基础设施本身也越来越像“平台”,而不只是“GPU 托管”。CNCF 提醒,基于 Gateway API 的 Inference Gateway 已经进入 GA,可根据模型名称、LoRA adapters 和 endpoint 状态来路由流量,从而更好地共享 server pools 并提升加速器利用率。Google 则通过将 NVIDIA Dynamo 集成到 GKE Inference Gateway 中进一步强化这一趋势,同时宣布可拆分的 G4 VM,以便更精细地匹配负载。这里的问题也不再只是“GPU 在哪里?”,而是“如何以纪律化、共享化和精细化的方式使用推理能力?”

这对组织架构的影响是决定性的:MLOps 现在必须与安全、cloud platform、data engineering、IAM 团队、FinOps 团队,甚至法务协同工作。“AgentOps”并不是一个新的流行词,而是 AI 运营正在从 data science 孤岛走向信息系统核心运营层的证明。

最终会反映到预算上的隐性成本

真正具有决策意义的,正是这一点。根据 Flexera 的 State of the Cloud 2026,58% 的组织已经在使用 public cloud 的 GenAI services,45% 表示使用程度广泛,73% 运行在 hybrid 环境中,49% 开始使用 unit economics 将 cloud 支出与 business outcomes 关联起来,而 IaaS/PaaS 的估算浪费率则回升至 29%。Flexera 还指出,64% 的组织如今更倾向于通过业务价值而非单纯成本效率来衡量 cloud。这并不只是一个小变化:讨论重心已经从“它多少钱?”转向“每个 service、每次 usage、每个 workflow、每个 team、每个 customer 的成本是多少?”

这一变化也与欧洲企业在现实中的观察相一致。Reuters 报道称,Siemens、Renault、Orange 或 ChapsVision 等集团正在增加供应商数量,以降低依赖风险,同时也是因为随着 agents 自动化更多任务,token 成本变得越来越敏感。文章明确提到这种对单位成本的关注不断上升,以及 token 预算比预期更快耗尽的案例。就连金融市场如今也开始担忧 hyperscalers 在 AI 基础设施上的支出水平,这说明经济回报问题已经走出了技术圈层。

还需要补充一个常被误解的点:一个 agentic system 的账单并不只是 model API 的价格。AWS 在其 AgentCore pricing 页面中展示,围绕模型还会产生额外成本——gateway 调用、短期 memory、长期 memory 存储、记忆检索、observability 等,且各项费用是分开计费的。AWS 公布的定价示例正好说明了这种颗粒度:即使不算模型本身,agentic 运营层也会形成自己的成本结构。

因此,对于 CIO 或 CFO 来说,正确的预算视角不再是“一个 prompt 多少钱?”,而是“一个有用 agent 的完整成本是多少?”这个完整成本至少应包括模型、外部工具、memory、logging、tracing、安全、防护机制、存储、上下文数据,以及评估和修正所需的人力时间。如果企业不跟踪这个经济单元,就很容易看到采用率上升,却无法判断它是在创造价值,还是只是在增加 cloud 负担。

这也正是 FinOps 正在发生本质变化的原因。Flexera 不再只是推出传统的 cloud cost management 功能,而是推出覆盖 applications、agents、models、data platforms 和 compute 的 AI Cost Management 层。其隐含信息非常明确:AI 支出不再是 cloud 支出的附属项,而是一个独立的管理科目,复杂到必须依赖专门工具。

AI cloud 重新成为主权选择

另一个容易犯的理解错误,是把 AI cloud 仅仅看作 AWS、Azure 和 Google Cloud 之间的技术选型。在2026年6月的欧洲,这个问题也已经成为业务连续性和运营主权问题。欧盟委员会于6月3日通过了 Cloud and AI Development Act 提案,被视为加强欧洲 cloud 和 AI 生态、投资与基础设施的重要抓手。与此同时,官方时间表显示,AI Act 将于2026年8月2日起全面适用,透明度规则也将在2026年8月生效,更广泛的框架将强化供应商和部署方的责任。

这一政治维度已经开始体现在企业架构中。Reuters 解释说,一些欧洲集团在某些美国服务受到访问限制后,加速了模型和供应商多元化,原因正是专有远程服务可能被供应商限制,而且不一定能在客户自己的服务器上运行。在这篇报道里,主权并不意味着自给自足:Siemens、Orange 或 Renault 更强调的是灵活性、供应商组合,以及当某一方切断访问或更改条件时的备份能力。

也正是在这个背景下,OVHcloud 的宣布才显得重要。Reuters 报道称,这家法国集团希望训练 frontier models,成为欧洲第二大 LLM 厂商,相关新技术周期的成本预计为1.5亿至2亿欧元,远低于此前常被提及的10亿欧元级别。无论这一计划最终商业上是否成功,它都说明了一件重要的事:AI cloud 主权已经不再是抽象的政策话语,而是正在上升为欧洲大型企业的产品和基础设施战略。

对于企业而言,这一张力的业务翻译非常具体。所谓“主权”架构,不仅仅是部署在欧洲的架构,而是能够识别哪些组件必须具备自运营能力、哪些工具必须保持可替代、哪些上下文数据不能被锁定在专有 runtime 中,以及一个关键 agent 在多长时间内可以切换模型或供应商。只要 agent 开始作用于业务流程,供应商依赖就不再只是开发者的选择,而是一个风险变量。

现在真正有用的决策框架

因此,问题不再是“是否要为生成式 AI 做 MLOps?”,而是要标准化哪一种运营方式。下面的框架总结了2026年6月信号对企业真正带来的变化,可用于预算决策、架构路线或供应商选择。

决策维度 2026年的变化 管理层需要提出的问题
架构 基础不再是一个 model endpoint,而是由 runtime + memory + gateway + identity + traces + evaluation 组成的体系。 我们是要标准化一个统一的 agent runtime,还是在多个 cloud 和 framework 之间保持可移植层?
治理 可观测性变成行为级:tokens、latency、sessions、调用的工具、traces、反馈、持续评分。 在任何上线之前,我们必须要求哪些指标:成本、质量、groundedness、安全性、解决时长?
预算 AI 支出变成复合型:模型、memory、工具、logs、tracing、安全、数据、GPU capacity。Flexera 观察到 unit economics 和 cloud 浪费率正在上升。 我们是否知道每个有用 agent、每条用户路径或每个业务场景的完整成本?
业务上下文 Microsoft 强调瓶颈不再是模型,而是共享上下文;Databricks 则将上下文质量和知识治理作为平台支柱。 哪些数据集、本体、文档和权限构成了 agents 的“唯一事实来源”?
主权 在欧洲,韧性来自供应商多样性、可替代性和本地运营关键组件的能力;监管框架也将在2026年8月前进一步收紧。 如果某个供应商改变访问规则,我们需要多少天才能切换一个关键 agent?

 

最实际的结果是,AI cloud 采购不应再首先依据“最强模型”来评估,而应围绕五个更不显眼、却更关键的标准:上下文可移植性、可观测性质量、控制粒度、成本透明度以及容灾/回退能力。一个供应商可能在演示中表现极佳,却在工业化阶段表现平平。正是这种差距,正在开始重塑市场。

领先者已经理解了什么

提前读懂这一趋势的人会看到:企业 AI 的下一场战斗,主要不是争夺更好的模型访问权,而是争夺在可持续的经济与法律框架内运行 agents 的能力。领先的组织并不只是部署更快;它们是让 agents 变得可衡量、可替换、可治理。它们把 context 视为战略资产,把成本视为产品指标,把安全视为行动策略,而不是访问清单。

当然,也需要保持方法论上的谨慎。很大一部分信号来自厂商公告和产品文档;某些功能仍处于 beta 或 preview 阶段,例如 Databricks 的 MLflow 3 生产监控。这意味着真实落地会比 keynote 所暗示的更慢、也更不均衡。但这一限制并不会改变根本判断:当四大 cloud 与 data 生态都在向相同的技术原语收敛时,这一趋势大概率会持续下去。

因此,最值得记住的核心判断是:2026年的 MLOps 与 Cloud AI 真正要解决的,不再只是提供一个模型,而是以 context、proofs 和 guardrails 来运营 agents。把这件事仅仅理解为工具问题的企业,会落后一步;而将其视为 cloud governance、财务控制和运营治理重构的企业,则更有能力吸收下一波浪潮。

ST
Stephane Nachez

ActuIA 编辑部 — 面向决策者的人工智能资讯、数据与分析。

提及的参与者
GOGoogle Cloud
CHChapsVision
MIMicrosoft
OVOVHcloud
REReuters
SISiemens
RERenault
OROrange
ActuIA 周刊

订阅成功,敬请期待!