Claude Mythos 与 GPT-5.5 如何悄然重写网络防御“算术”

Anthropic's Claude Mythos Preview 和 OpenAI's GPT-5.5 这两款前沿 AI 模型，在自主网络攻防任务上的完成速度远超既有能力预测，研究人员周三表示。

前沿模型跑赢趋势

Claude Mythos 预览版和 GPT-5.5 outperformed 了英国 AI Security Institute 自 2024 年末以来一直跟踪的“能力翻倍”趋势。

AISI 今年早些时候估计，达到 80% 可靠性的网络攻防时间跨度大约每五个月翻一倍，相比 2025 年 11 月的八个月又被压缩。更新版本的 Mythos 预览版在一次检查点中，solved 了名为 “The Last Ones（最后一批）” 的 32 步模拟企业网络攻击，在 10 次尝试中完成了 6 次，并在 10 次尝试中 3 次完成了 “Cooling Tower（冷却塔）”。GPT-5.5 在 10 次尝试中 3 次完成了 “The Last Ones”。

这是首次有模型完成了两个 AISI 任务区间。

Also Read: Ripple's Schwartz Says Bitcoin's Mining Model Is The Flaw XRP Avoided

Palo Alto 发出“漏洞末日”预警

Palo Alto Networks 通过自家测试 reported 出了类似结论。

该公司在过去一个月里扫描了 130 多款产品，发现了 75 个真实漏洞，是其通常月度数量的七倍多，目前这些漏洞都已打补丁。

公司技术主管 Lee Klarich 表示，组织在对手获得类似能力前的领先窗口非常有限。

他估计，“组织要想跑赢对手，大约只有三到五个月的狭窄窗口期”。

AISI 警告称，其样本规模仍然较小，而且在最难的任务上可供对比的人类数据有限。即便如此，研究所表示，即使从分析中剔除任意单一模型，对“翻倍周期”的估计也只会变化不到一个月。负责在软件任务上 tracks AI 能力的非营利组织 METR 得出的数字几乎相同，大约为四个月。

能力曲线进一步变陡

Anthropic 在上月将 Mythos 的早期试用范围限制在包括 Palo Alto Networks、CrowdStrike、Amazon、Apple 和 JPMorgan 在内的一小部分合作方。

OpenAI 随后推出了其 GPT-5.5-Cyber 模型以及 Daybreak 网络安全计划。

在过去 18 个月里，变化的节奏明显加快。AISI 在 2026 年 2 月将能力“翻倍周期”从八个月压缩到 4.7 个月，并在本轮测试后再次压缩。重新计算后的数字如今接近四个月，与 METR 对软件工程任务得出的读数相呼应。