Claude Mythos:欧盟被排除在美联储和英格兰银行的简报之外

Claude Mythos:欧盟被排除在美联储和英格兰银行的简报之外

TLDR : Claude Mythos是一个因网络安全原因保密的前沿AI模型,欧盟被排除在外,而英美金融机构已收到相关简报。

据我们所知,欧盟的任何机构目前都没有通过Project Glasswing获得操作访问权限,而英格兰银行、美联储和美国财政部却已收到相关简报。Anthropic于2026年4月7日宣布了Claude Mythos Preview,这是首个因网络安全原因而非公开发布的前沿模型。该模型能够自主发现和利用零日漏洞:在ExploitBench基准测试(卡内基梅隆/ Bugcrowd,2026年5月)中,它在测试的41个CVE中实现了21个任意代码执行,而其他公开模型未能成功一个。访问权限仅限于Project Glasswing,这是由12家美国创始企业领导的大约40个组织的联盟,其中包括AWS、Apple、Cisco、CrowdStrike、Google、JPMorgan Chase、Microsoft、NVIDIA、Palo Alto Networks、Broadcom、Linux Foundation和Anthropic。截至目前,欧盟机构无法访问,而欧洲央行仅召集区内银行提高风险意识,没有类似的简报。正如Les Echos在2026年5月27日报告的那样,Sia Partners的一项独家研究提出了100对1的攻防优势——这个数字基于模型恶意传播的假设情景,本文对此进行了回顾。

可测量但代价高昂的技术奇点

Mythos的能力差距首先体现在独立的基准测试中。在ExploitBench上,完整测试运行的成本大约为36,428美元,而通过Codex的GPT-5.5仅需3,075美元,约为12倍的比率。高昂的成本使得Mythos超出机会主义者的触及范围,但能力差距仍有据可查:在公开部署的八个模型中,只有GPT-5.5通过了安全沙箱,达到了对一个WebAssembly漏洞的控制流劫持。就机构红队测试而言,英国AI安全研究所观察到了持续的加速:该机构在2025年11月估计网络能力每八个月翻一番,2026年2月修订为4.7个月,而Mythos和GPT-5.5现在已经超越了这一加速轨迹。Mythos是首个完成AISI的两个网络范围的模型:在32步企业网络攻击模拟中,成功率为六成,而人类专家大约需二十小时解决;在“冷却塔”工业模拟中成功率为三成。Anthropic还补充说,在主要操作系统和浏览器中自主发现了数以千计的零日漏洞,其中超过99%在发布时未修补——这些内部数据记录在一份244页的系统卡中,其精确范围尚未被欧洲第三方审核。

已缩小的裂痕:开放权重填补了大部分差距

Mythos的独特性掩盖了一种相对化其战略意义的平行运动。一篇2026年5月发布在arXiv的论文显示,Qwen3.6-27B在单个A100卡上的自动复制成功率达到33%,与当前一代的GPT-5.4持平,并超过前一代的前沿,其中Opus 4达到6%,GPT-5为0%。该模型在云提供商的A100上以每小时1至2美元的价格运行,并保持在Epoch AI为RTX 5090时代设定的40亿参数的门槛内——因此在大众硬件的范围内。CISO方面的回声也得到确认:根据瑞士InfoGuard公司借鉴AISLE组织的分析,测试的八个开放权重模型再现了被视为Mythos优越性的FreeBSD漏洞,其中一个活跃参数为36亿,约为每百万标记0.11美元。剩余的能力差距集中在一个狭窄的领域:对实际CVE的任意代码执行要求。这种差异构成了Sia Partners提出的100对1优势的基础,并由Les Echos揭示——这一数字明确依赖于一个Mythos“落入恶意之手”的场景,而防御几乎缺席,英国AISI也将其描述为“面临世界上最差守门员的攻击者”(自由翻译)。此外,Sia Partners还销售一份RSSI/DSI手册,基于相同的观察结果映射AI网络威胁的九个操作轴,Les Echos的文章没有提到这一利益冲突。

Glasswing:美国的范围,非对称的警报

除了已经提到的十二个创始成员之外,InfoGuard的报告称联盟还包括选定的公司,如JPMorgan Chase、Goldman Sachs以及一些云和操作系统供应商,用于防御性用途。其余的经济体无法访问。警报序列反映了这一范围:Anthropic向美联储、美国财政部、网络安全和基础设施安全局以及英格兰银行进行了简报,美国财政部长Scott Bessent和美联储主席Jerome Powell与大型银行的首席执行官举行了紧急会议,指出该模型的特定威胁。欧元区方面,欧洲央行召集区内银行提高风险意识,没有类似于Anthropic对英格兰银行的简报。2026年4月28日的新闻发布会上,欧盟委员会发言人Thomas Regnier确认该机构仍无Project Glasswing的访问权,称“网络安全问题尚待解决”,并表示公司“善意对话”,但未承诺时间表。截至2026年5月29日,法国国家信息系统安全局(ANSSI)和欧洲网络与信息安全局(ENISA)尚未就Mythos或可能解锁访问的评估程序发表官方立场——这一可记录的沉默与美国和英国的机构动员形成对比。

“100对1”基于两个累积条件

Sia Partners量化的不对称性是有条件的:它假设恶意行为者获得Mythos的访问权——目前仅限于Project Glasswing下的约四十个组织——且防御仍几乎不存在。英国AISI验证了黑客专家任务73%的成功率,并指出Mythos是在“几乎不存在的防御”下评估的——一位评估者称其为“面临世界上最差守门员的攻击者”。在正确加固的生产环境中,情况则不同。此外,Sia Partners销售一份基于相同观察的RSSI/DSI手册,这构成了一个直接的利益,应作为批判性阅读的要素。

制度裂痕:预部署对法定义务

Mythos的访问差距延续了一种更深层次的制度裂痕,这在前沿模型控制的语法中清晰可见。英国AI安全研究所进行预部署的红队测试,约有250人,并与Anthropic、Google DeepMind和OpenAI有正式合作,以直接评估模型快照,进行更广泛的发布。其技术总监Jade Leung,同时也是英国首相的AI顾问,在2026年4月22日的ResultSense中表示已在每个测试系统中发现漏洞,包括Mythos。欧盟则处于光谱的另一端:根据同一来源,它“优先考虑开发者的法定义务,而非内部的红队能力”(自由翻译),通过AI法案和DORA在金融领域实施控制。法国已通过2025年推出的INESIA设立了评估主权的第一个里程碑,但不及AISI的范围。这种不平衡促使来自各方的欧盟议员写信给委员会执行副主席Henna Virkkunen,要求欧盟参与Project Glasswing并加速零信任架构。信函日期为2026年4月27日,与欧盟的法律框架相对立的是对操作基础设施的需求——这一需求面临行业资源基础的挑战。根据ENISA的数据,2024年欧盟的网络安全专家短缺达到299,000个职位,比2023年增长9%,而NIS范围内的网络安全中位预算为150万欧元——相当于根据该预算和卡内基梅隆/Bugcrowd发布的ExploitBench运行成本计算的约40次Mythos的ExploitBench运行。