企业中的AI真正挑战不再是模型，而是其运营化

到2026年6月，企业面临的最重要信号不再是又一个LLM的发布，甚至也不是benchmark之战。真正的转向，已在 Google Cloud、AWS、Microsoft 和 Databricks 等厂商身上清晰可见：MLOps 正演变为一种面向 AI agents 的运营学科，同时四个关键议题同步上升——业务上下文、治理、可观测性以及单次推理成本。当各大厂商都围绕 runtime、identity、gateway、memory、traceability 和 continuous evaluation 重新组织发布内容时，这已不再是风潮，而是技术层级的迁移。

换句话说：在2024年，大家主要问的是该选哪个模型；到了2026年，决定能否进入生产的关键问题，变成了谁来掌控上下文、权限、trace、成本，以及切换供应商的能力。Microsoft 几乎明说了这一点：瓶颈不再是模型能力，而是企业共享上下文。Databricks 则指出，表面可见的 agentic loop 只是工作的一小部分，其余部分则是由安全、部署、监控、成本和质量构成的隐性技术债。AWS 现在强调要基于生产 traces 持续改进。Google 则在推动一个完整平台，用于构建、部署、治理和优化 agents。

不是 AI 进入了 cloud；而是 cloud 重新成为 AI 的操作系统。

各大云厂商都在显现同样的转向

今年春季和6月的各项发布有一个非常明显的共同点。Google Cloud 推出了 Gemini Enterprise Agent Platform，定位为一个用于构建、扩展、治理和优化 agents 的平台，将模型选择、集成工具、DevOps、编排和安全整合到同一层中。在 Google Cloud Next ’26 上，Google 还重点展示了基于 graph 的 Agent Developer Kit，以及用于大规模构建、测试和发布 agents 的 Agent Studio。

在 Microsoft 这边，Build 2026 的信息也几乎同样直白。公司表示，问题不再是模型有多强，而是如何为必须在业务系统中执行动作的 agents 提供一致的数据上下文。Build 2026 官方页面也将多项重点公告列为核心内容，从“observability to ROI for AI agents”到可移植的 agent governance，再到 Foundry 的大规模部署与运行能力。

AWS 则将 Bedrock AgentCore 推向了工业化运营逻辑。其于2026年6月18日发布的新优化能力，重点不在于如何创建 agents，而在于一个闭环：用生产 traces 理解系统发生了什么，修复异常，并证明修复确实提升了系统表现。AWS 甚至用非常直白的方式定义了真正的风险：最危险的故障不是返回错误的故障，而是那些不会立即报错、只会在事后通过客户投诉才暴露出来的静默失效。

Databricks 也用不同的话语表达了同样的判断。在 DAIS 2026 的文章中，这家厂商解释说，agentic loop 只是“可见的1%”，而剩余“99%”属于部署、token capacity、安全、评估、可观测性、上下文和共享等工作。最值得注意的并不只是产品发布本身，而是其框架：对 Databricks 来说，市场问题已经不是如何演示一个 agent，而是如何运营一个可靠的 agentic system。

对于决策者来说，结论很简单：当 Google、AWS、Microsoft 和 Databricks 不约而同地围绕 runtime、identity、memory、gateways、tracing、scoring 和 governance 这些相同的技术积木展开叙述时，这意味着行业正在从“POC + hype”周期进入架构周期。因此，MLOps 的重心正在从模型转向运营链路。

为什么 MLOps 正在变成 AgentOps

这种迁移改变了技术栈的本质。在传统 MLOps 中，核心工作是对数据和模型进行版本管理，部署 endpoint，跟踪少量指标，然后重新运行训练流水线。而在2026年的技术栈中，除了这些，还必须管理 agent runtime、短期和长期 memory、action permissions、外部工具、执行 traces、回答质量、行为合规性，以及多步骤链路的延迟。Google 已经对这一层级进行了明确文档化：Agent Platform 提供 managed runtime、sessions、Memory Bank、logging、tracing、monitoring，以及按 agent 划分的 identity。

其中最有意思的细节，可能是 agent identity 的崛起。在 Google 的文档中，Agent Identity 基于 SPIFFE 标准，采用加密可验证的身份机制，用于让 agent 向 MCP servers、cloud resources、endpoints 和其他 agents 进行认证。换句话说，问题不再只是“谁在调用 API？”，而是“哪个 agent 在行动、代表谁、拥有怎样的权限范围？”这是一项重大变化：安全控制被提升到了自动化行为层面。

AWS 也沿着同一方向推进，通过 AgentCore Gateway 将现有 API、Lambda functions 和服务转换为兼容 Model Context Protocol 的工具，并提供入站与出站认证、开箱即用的集成以及细粒度访问控制。这一层非常关键，因为它把 agents 的世界与真实的信息系统连接起来：CRM、消息系统、工单、文档、数据库、workflow。此时，MLOps 不再只是一个“模型”问题，而是一个平台 + 集成 + 安全的问题。

另一个转折点是质量型可观测性。Databricks 的 MLflow 3 已经将 GenAI 应用和 agents 的跟踪、评估和可观测性统一起来，具备实时 traces、scorers、人工反馈和版本管理。在生产环境中，Databricks 提供的 monitoring 可以自动对 traces 样本运行 scorers，以持续评估质量——这意味着我们不再只是在部署前评估某个版本，而是在上线后评估真实行为。AWS 也以另一种方式表达了同样的意思：AgentCore Observability 提供关于 session 数量、延迟、持续时间、token 使用量和错误率的实时指标，并支持按 metadata 过滤以便调查。

最后，推理基础设施本身也越来越像“平台”，而不只是“GPU 托管”。CNCF 提醒，基于 Gateway API 的 Inference Gateway 已经进入 GA，可根据模型名称、LoRA adapters 和 endpoint 状态来路由流量，从而更好地共享 server pools 并提升加速器利用率。Google 则通过将 NVIDIA Dynamo 集成到 GKE Inference Gateway 中进一步强化这一趋势，同时宣布可拆分的 G4 VM，以便更精细地匹配负载。这里的问题也不再只是“GPU 在哪里？”，而是“如何以纪律化、共享化和精细化的方式使用推理能力？”

这对组织架构的影响是决定性的：MLOps 现在必须与安全、cloud platform、data engineering、IAM 团队、FinOps 团队，甚至法务协同工作。“AgentOps”并不是一个新的流行词，而是 AI 运营正在从 data science 孤岛走向信息系统核心运营层的证明。

最终会反映到预算上的隐性成本

真正具有决策意义的，正是这一点。根据 Flexera 的 State of the Cloud 2026，58% 的组织已经在使用 public cloud 的 GenAI services，45% 表示使用程度广泛，73% 运行在 hybrid 环境中，49% 开始使用 unit economics 将 cloud 支出与 business outcomes 关联起来，而 IaaS/PaaS 的估算浪费率则回升至 29%。Flexera 还指出，64% 的组织如今更倾向于通过业务价值而非单纯成本效率来衡量 cloud。这并不只是一个小变化：讨论重心已经从“它多少钱？”转向“每个 service、每次 usage、每个 workflow、每个 team、每个 customer 的成本是多少？”

这一变化也与欧洲企业在现实中的观察相一致。Reuters 报道称，Siemens、Renault、Orange 或 ChapsVision 等集团正在增加供应商数量，以降低依赖风险，同时也是因为随着 agents 自动化更多任务，token 成本变得越来越敏感。文章明确提到这种对单位成本的关注不断上升，以及 token 预算比预期更快耗尽的案例。就连金融市场如今也开始担忧 hyperscalers 在 AI 基础设施上的支出水平，这说明经济回报问题已经走出了技术圈层。

还需要补充一个常被误解的点：一个 agentic system 的账单并不只是 model API 的价格。AWS 在其 AgentCore pricing 页面中展示，围绕模型还会产生额外成本——gateway 调用、短期 memory、长期 memory 存储、记忆检索、observability 等，且各项费用是分开计费的。AWS 公布的定价示例正好说明了这种颗粒度：即使不算模型本身，agentic 运营层也会形成自己的成本结构。

因此，对于 CIO 或 CFO 来说，正确的预算视角不再是“一个 prompt 多少钱？”，而是“一个有用 agent 的完整成本是多少？”这个完整成本至少应包括模型、外部工具、memory、logging、tracing、安全、防护机制、存储、上下文数据，以及评估和修正所需的人力时间。如果企业不跟踪这个经济单元，就很容易看到采用率上升，却无法判断它是在创造价值，还是只是在增加 cloud 负担。

这也正是 FinOps 正在发生本质变化的原因。Flexera 不再只是推出传统的 cloud cost management 功能，而是推出覆盖 applications、agents、models、data platforms 和 compute 的 AI Cost Management 层。其隐含信息非常明确：AI 支出不再是 cloud 支出的附属项，而是一个独立的管理科目，复杂到必须依赖专门工具。

AI cloud 重新成为主权选择

另一个容易犯的理解错误，是把 AI cloud 仅仅看作 AWS、Azure 和 Google Cloud 之间的技术选型。在2026年6月的欧洲，这个问题也已经成为业务连续性和运营主权问题。欧盟委员会于6月3日通过了 Cloud and AI Development Act 提案，被视为加强欧洲 cloud 和 AI 生态、投资与基础设施的重要抓手。与此同时，官方时间表显示，AI Act 将于2026年8月2日起全面适用，透明度规则也将在2026年8月生效，更广泛的框架将强化供应商和部署方的责任。

这一政治维度已经开始体现在企业架构中。Reuters 解释说，一些欧洲集团在某些美国服务受到访问限制后，加速了模型和供应商多元化，原因正是专有远程服务可能被供应商限制，而且不一定能在客户自己的服务器上运行。在这篇报道里，主权并不意味着自给自足：Siemens、Orange 或 Renault 更强调的是灵活性、供应商组合，以及当某一方切断访问或更改条件时的备份能力。

也正是在这个背景下，OVHcloud 的宣布才显得重要。Reuters 报道称，这家法国集团希望训练 frontier models，成为欧洲第二大 LLM 厂商，相关新技术周期的成本预计为1.5亿至2亿欧元，远低于此前常被提及的10亿欧元级别。无论这一计划最终商业上是否成功，它都说明了一件重要的事：AI cloud 主权已经不再是抽象的政策话语，而是正在上升为欧洲大型企业的产品和基础设施战略。

对于企业而言，这一张力的业务翻译非常具体。所谓“主权”架构，不仅仅是部署在欧洲的架构，而是能够识别哪些组件必须具备自运营能力、哪些工具必须保持可替代、哪些上下文数据不能被锁定在专有 runtime 中，以及一个关键 agent 在多长时间内可以切换模型或供应商。只要 agent 开始作用于业务流程，供应商依赖就不再只是开发者的选择，而是一个风险变量。

现在真正有用的决策框架

因此，问题不再是“是否要为生成式 AI 做 MLOps？”，而是要标准化哪一种运营方式。下面的框架总结了2026年6月信号对企业真正带来的变化，可用于预算决策、架构路线或供应商选择。

决策维度	2026年的变化	管理层需要提出的问题
架构	基础不再是一个 model endpoint，而是由 runtime + memory + gateway + identity + traces + evaluation 组成的体系。	我们是要标准化一个统一的 agent runtime，还是在多个 cloud 和 framework 之间保持可移植层？
治理	可观测性变成行为级：tokens、latency、sessions、调用的工具、traces、反馈、持续评分。	在任何上线之前，我们必须要求哪些指标：成本、质量、groundedness、安全性、解决时长？
预算	AI 支出变成复合型：模型、memory、工具、logs、tracing、安全、数据、GPU capacity。Flexera 观察到 unit economics 和 cloud 浪费率正在上升。	我们是否知道每个有用 agent、每条用户路径或每个业务场景的完整成本？
业务上下文	Microsoft 强调瓶颈不再是模型，而是共享上下文；Databricks 则将上下文质量和知识治理作为平台支柱。	哪些数据集、本体、文档和权限构成了 agents 的“唯一事实来源”？
主权	在欧洲，韧性来自供应商多样性、可替代性和本地运营关键组件的能力；监管框架也将在2026年8月前进一步收紧。	如果某个供应商改变访问规则，我们需要多少天才能切换一个关键 agent？

最实际的结果是，AI cloud 采购不应再首先依据“最强模型”来评估，而应围绕五个更不显眼、却更关键的标准：上下文可移植性、可观测性质量、控制粒度、成本透明度以及容灾/回退能力。一个供应商可能在演示中表现极佳，却在工业化阶段表现平平。正是这种差距，正在开始重塑市场。

领先者已经理解了什么

提前读懂这一趋势的人会看到：企业 AI 的下一场战斗，主要不是争夺更好的模型访问权，而是争夺在可持续的经济与法律框架内运行 agents 的能力。领先的组织并不只是部署更快；它们是让 agents 变得可衡量、可替换、可治理。它们把 context 视为战略资产，把成本视为产品指标，把安全视为行动策略，而不是访问清单。

当然，也需要保持方法论上的谨慎。很大一部分信号来自厂商公告和产品文档；某些功能仍处于 beta 或 preview 阶段，例如 Databricks 的 MLflow 3 生产监控。这意味着真实落地会比 keynote 所暗示的更慢、也更不均衡。但这一限制并不会改变根本判断：当四大 cloud 与 data 生态都在向相同的技术原语收敛时，这一趋势大概率会持续下去。

因此，最值得记住的核心判断是：2026年的 MLOps 与 Cloud AI 真正要解决的，不再只是提供一个模型，而是以 context、proofs 和 guardrails 来运营 agents。把这件事仅仅理解为工具问题的企业，会落后一步；而将其视为 cloud governance、财务控制和运营治理重构的企业，则更有能力吸收下一波浪潮。

Stephane Nachez

ActuIA 编辑部 — 面向决策者的人工智能资讯、数据与分析。