Claude Mythos：欧盟被排除在美联储和英格兰银行的简报之外

据我们所知，欧盟的任何机构目前都没有通过Project Glasswing获得操作访问权限，而英格兰银行、美联储和美国财政部却已收到相关简报。Anthropic于2026年4月7日宣布了Claude Mythos Preview，这是首个因网络安全原因而非公开发布的前沿模型。该模型能够自主发现和利用零日漏洞：在ExploitBench基准测试（卡内基梅隆/ Bugcrowd，2026年5月）中，它在测试的41个CVE中实现了21个任意代码执行，而其他公开模型未能成功一个。访问权限仅限于Project Glasswing，这是由12家美国创始企业领导的大约40个组织的联盟，其中包括AWS、Apple、Cisco、CrowdStrike、Google、JPMorgan Chase、Microsoft、NVIDIA、Palo Alto Networks、Broadcom、Linux Foundation和Anthropic。截至目前，欧盟机构无法访问，而欧洲央行仅召集区内银行提高风险意识，没有类似的简报。正如Les Echos在2026年5月27日报告的那样，Sia Partners的一项独家研究提出了100对1的攻防优势——这个数字基于模型恶意传播的假设情景，本文对此进行了回顾。

可测量但代价高昂的技术奇点

Mythos的能力差距首先体现在独立的基准测试中。在ExploitBench上，完整测试运行的成本大约为36,428美元，而通过Codex的GPT-5.5仅需3,075美元，约为12倍的比率。高昂的成本使得Mythos超出机会主义者的触及范围，但能力差距仍有据可查：在公开部署的八个模型中，只有GPT-5.5通过了安全沙箱，达到了对一个WebAssembly漏洞的控制流劫持。就机构红队测试而言，英国AI安全研究所观察到了持续的加速：该机构在2025年11月估计网络能力每八个月翻一番，2026年2月修订为4.7个月，而Mythos和GPT-5.5现在已经超越了这一加速轨迹。Mythos是首个完成AISI的两个网络范围的模型：在32步企业网络攻击模拟中，成功率为六成，而人类专家大约需二十小时解决；在“冷却塔”工业模拟中成功率为三成。Anthropic还补充说，在主要操作系统和浏览器中自主发现了数以千计的零日漏洞，其中超过99%在发布时未修补——这些内部数据记录在一份244页的系统卡中，其精确范围尚未被欧洲第三方审核。

已缩小的裂痕：开放权重填补了大部分差距

Mythos的独特性掩盖了一种相对化其战略意义的平行运动。一篇2026年5月发布在arXiv的论文显示，Qwen3.6-27B在单个A100卡上的自动复制成功率达到33%，与当前一代的GPT-5.4持平，并超过前一代的前沿，其中Opus 4达到6%，GPT-5为0%。该模型在云提供商的A100上以每小时1至2美元的价格运行，并保持在Epoch AI为RTX 5090时代设定的40亿参数的门槛内——因此在大众硬件的范围内。CISO方面的回声也得到确认：根据瑞士InfoGuard公司借鉴AISLE组织的分析，测试的八个开放权重模型再现了被视为Mythos优越性的FreeBSD漏洞，其中一个活跃参数为36亿，约为每百万标记0.11美元。剩余的能力差距集中在一个狭窄的领域：对实际CVE的任意代码执行要求。这种差异构成了Sia Partners提出的100对1优势的基础，并由Les Echos揭示——这一数字明确依赖于一个Mythos“落入恶意之手”的场景，而防御几乎缺席，英国AISI也将其描述为“面临世界上最差守门员的攻击者”（自由翻译）。此外，Sia Partners还销售一份RSSI/DSI手册，基于相同的观察结果映射AI网络威胁的九个操作轴，Les Echos的文章没有提到这一利益冲突。

Glasswing：美国的范围，非对称的警报

除了已经提到的十二个创始成员之外，InfoGuard的报告称联盟还包括选定的公司，如JPMorgan Chase、Goldman Sachs以及一些云和操作系统供应商，用于防御性用途。其余的经济体无法访问。警报序列反映了这一范围：Anthropic向美联储、美国财政部、网络安全和基础设施安全局以及英格兰银行进行了简报，美国财政部长Scott Bessent和美联储主席Jerome Powell与大型银行的首席执行官举行了紧急会议，指出该模型的特定威胁。欧元区方面，欧洲央行召集区内银行提高风险意识，没有类似于Anthropic对英格兰银行的简报。2026年4月28日的新闻发布会上，欧盟委员会发言人Thomas Regnier确认该机构仍无Project Glasswing的访问权，称“网络安全问题尚待解决”，并表示公司“善意对话”，但未承诺时间表。截至2026年5月29日，法国国家信息系统安全局（ANSSI）和欧洲网络与信息安全局（ENISA）尚未就Mythos或可能解锁访问的评估程序发表官方立场——这一可记录的沉默与美国和英国的机构动员形成对比。

“100对1”基于两个累积条件
Sia Partners量化的不对称性是有条件的：它假设恶意行为者获得Mythos的访问权——目前仅限于Project Glasswing下的约四十个组织——且防御仍几乎不存在。英国AISI验证了黑客专家任务73%的成功率，并指出Mythos是在“几乎不存在的防御”下评估的——一位评估者称其为“面临世界上最差守门员的攻击者”。在正确加固的生产环境中，情况则不同。此外，Sia Partners销售一份基于相同观察的RSSI/DSI手册，这构成了一个直接的利益，应作为批判性阅读的要素。

制度裂痕：预部署对法定义务

Mythos的访问差距延续了一种更深层次的制度裂痕，这在前沿模型控制的语法中清晰可见。英国AI安全研究所进行预部署的红队测试，约有250人，并与Anthropic、Google DeepMind和OpenAI有正式合作，以直接评估模型快照，进行更广泛的发布。其技术总监Jade Leung，同时也是英国首相的AI顾问，在2026年4月22日的ResultSense中表示已在每个测试系统中发现漏洞，包括Mythos。欧盟则处于光谱的另一端：根据同一来源，它“优先考虑开发者的法定义务，而非内部的红队能力”（自由翻译），通过AI法案和DORA在金融领域实施控制。法国已通过2025年推出的INESIA设立了评估主权的第一个里程碑，但不及AISI的范围。这种不平衡促使来自各方的欧盟议员写信给委员会执行副主席Henna Virkkunen，要求欧盟参与Project Glasswing并加速零信任架构。信函日期为2026年4月27日，与欧盟的法律框架相对立的是对操作基础设施的需求——这一需求面临行业资源基础的挑战。根据ENISA的数据，2024年欧盟的网络安全专家短缺达到299,000个职位，比2023年增长9%，而NIS范围内的网络安全中位预算为150万欧元——相当于根据该预算和卡内基梅隆/Bugcrowd发布的ExploitBench运行成本计算的约40次Mythos的ExploitBench运行。

Stephane Nachez

ActuIA 编辑部 — 面向决策者的人工智能资讯、数据与分析。