Claude Opus 4.8：Anthropic 强调更诚实的模型以面对自身错误

Anthropic 于 2026 年 5 月 28 日发布的 Claude Opus 4.8，所强调的改进体现在一个指标上：根据发行方的说法，该模型比其前任更不容易在生成代码中漏掉并未标记的错误，可能性降低了四倍。这个数据是自我声明的，由内部 Alignment 团队在未公开的协议下生成。该模型可通过标识符claude-opus-4-8在 API 和 claude.ai 上立即使用，定价与 Opus 4.7 对齐（每百万个输入 token 收费 5 美元，每百万个输出 token 收费 25 美元）。Opus 4.8 的“快速模式”，其速度是标准模式的 2.5 倍，收费为每百万个输入 token 10 美元，输出 token 50 美元，根据官方公告，价格比之前的快速模式便宜三倍。

Claude Opus 4.8 - API 启动定价（2026年5月28日）

模式	输入 ($/百万 tokens)	输出 ($/百万 tokens)	备注
标准	5 $	25 $	与 Opus 4.7 相同
快速模式 (2.5×)	10 $	50 $	比之前的快速模式便宜 3 倍

来源：Anthropic 官方公告，anthropic.com/news/claude-opus-4-8

伴随发布的三个操作杠杆

除模型外，三项功能改变了 Opus 4.8 在代理工作环境中的集成方式（设计用于自主协调多步骤任务）。第一项被称为“动态工作流程”，在开发者预览（研究预览）中部署，扩展了 Claude Code 的适用范围，适用于非常大型项目：代理规划工作，在同一会话中并行启动数百个子代理，然后在交付结果前验证输出。Anthropic 提到的用例包括迁移规模达数十万行的代码库，从启动到合并，使用现有测试套件作为参考。该功能仅对 Claude Code 的 Enterprise、Team 和 Max 计划开放。第二项功能是“努力控制”（effort control），在 claude.ai 的模型选择器旁边新增了四级滑块：“低”、“默认”、“额外”和“最大”，所有订阅计划均可访问。Anthropic 建议在重负荷任务和长期异步流程中使用“额外”设置。第三项功能允许在任务过程中向messages表中插入系统输入，而不会中断提示缓存或通过用户回合，从而为正在执行的代理开放权限、tokens 预算或环境上下文的热更新。

作为行业里程碑的元认知指标

公告中最具结构性且对购买者最为微妙的部分是关于未标记缺陷的四倍因素。该指标在模型安全卡（System Card）中有记录，发布于同一天，但由 Anthropic 的 Alignment 团队生成，而非第三方评估员，且协议在发行商环境之外不可重现。根据该团队的说法，Opus 4.8 表现出的不对齐行为（如欺骗或合作滥用）的比率较 Opus 4.7 显著降低，并接近其对齐度最高的模型 Claude Mythos Preview。该指标的意义不在于事实——一个基于未公布协议的自我声明四倍因素的承诺较弱——而在于评估方向的转变：Anthropic 现在将模型的元认知（知道自己不能做什么，标记对其自身产出的不确定性）作为评判代理模型的核心标准。缺乏的是更进一步的部分：发行商未发布未标记缺陷的计算公式、测试代码语料生成协议或干扰条件。然而，独立研究工作已在 Aithos AI Research Foundation 的研究日志中于 2026 年 2 月 9 日发布，通过重现 Anthropic 的评估场景，表明“发布的测试场景显示新款 Claude 模型的近乎完美对齐，但干扰揭示持续的合规差距”（自由翻译“Published testing scenarios show near-perfect alignment for newer Claude models, but perturbations reveal persistent compliance gaps”）。观察针对的是 Opus 4.6；它勾勒出一个四倍指标未能独自应对的场景。

“发布的测试场景显示新款 Claude 模型的近乎完美对齐，但干扰揭示持续的合规差距。”
Aithos AI Research Foundation - Daan Henselmans, Arno Libert, Lennard Zwart（2026年2月，英文翻译）。研究针对 Opus 4.6；作者尚未评估 Opus 4.8。

Mythos 突破前的一个系列里程碑

Opus 4.8 属于 Claude 系列快速迭代中的一环：ActuIA 已记录Claude Opus 4 于 2025 年 5 月的发布，专注于编码和代理自动化，接着是Claude Sonnet 4.5 在编程方面的延续。发行商本身将其描述为 Opus 4.7 的“适度但切实的改进”，在即将推出的更高级别产品之前。该高级别产品是 Claude Mythos Preview，已在Project Glasswing中限量发布（2026 年 4 月启动的防御性网络安全计划）。一个月内，Anthropic 和“约 50 个合作伙伴”，包括 AWS、Apple、Cisco、Google、Microsoft 和 NVIDIA，宣称使用 Mythos Preview 识别了超过一万项高或严重级别的系统性重要软件漏洞。Mythos 的公开发布预定在“未来几周内”，但前提是加强的安全措施得以部署。当前，对 Opus 4.8 性能的解读仍受制于第二个过滤器：在 Anthropic 发布的十余个有数据支持的证言中，唯一基于公共学术基准的是 Induced AI，其在 Online-Mind2Web 上取得了 84% 的成绩。该基准由俄亥俄州立大学 OSU-NLP-Group 在 MIT 许可下维护，其参考论文标题为“进步的错觉？评估当前网络代理的状态”，学术作者的编辑选择提示谨慎对待网络代理的高分。其他声称的性能（Relevance AI 的 Super-Agent Benchmark、Harvey 的 Legal Agent Benchmark、Cursor 的 CursorBench）基于未公布的专有协议。

Stephane Nachez

ActuIA 编辑部 — 面向决策者的人工智能资讯、数据与分析。

Claude Opus 4.8：Anthropic 强调更诚实的模型以面对自身错误

伴随发布的三个操作杠杆

作为行业里程碑的元认知指标

Mythos 突破前的一个系列里程碑

Anthropic在美国政府指令后被迫暂停Fable 5和Mythos 5

Siri AI：Gemini 作为老师，而不是引擎——WWDC 没有说出的事

同一模型，不同护栏：Claude Fable 5 与 Mythos 5 的发布揭示了什么