Claude Mythos AI 代码审计领先对手，却因价格高出 5 倍受限

Anthropic's Mythos AI model 在发现软件漏洞方面领先竞品系统，但新的独立基准测试暴露了其在判断力上的不足以及高昂的运行成本。

Mythos Preview 领跑源代码审计

进攻性安全公司 XBOW confirmed 了这一核心结论。该公司组建了一个由 10 名专家组成的团队，从基准测试、工作流程和集成等多个维度评估该模型。

XBOW 表示，Mythos Preview“相较所有现有模型（无论提供商）都是一次显著飞跃”。测试人员让模型针对带有已知漏洞的冻结开源应用进行评估。

相比 Opus 4.6，Mythos 将漏报率降低了 42%；在模型获得源代码访问权限后，这一降幅进一步扩大到 55%，The Decoder reported。该模型在“实时交互 + 源码”场景下表现突出，而在仅提供源代码时表现则相对不稳定。

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

成本问题削弱 Anthropic 的领先优势

Anthropic 表示，Mythos Preview 的价格大约是 Opus 模型的 5 倍，而后者本身已是市场上最昂贵的选择之一。高额溢价促使 XBOW 测试：在给予更长运行时间的情况下，价格更低的竞品是否能追平或超越 Mythos。

结果显示可以。在固定的 Web 漏洞发现 token 预算下，Mythos 虽然战胜了 Opus 4.6，却输给了 OpenAI's GPT-5.5，后者的漏报率仅为 10%，XBOW recorded 到这一数据。XBOW 指出，如果目标是追求准确率，该模型“并不算特别低效”，但在将成本纳入考量后，它就不再是同级别中的最佳选择。

该公司目前建议采用多模型组合方案，而不是依赖单一模型。

Mythos AI 性能放在大局中的表现

Mythos 在判断力方面表现不一：相较前代模型，它在识别和拒绝误报上更为出色，但在证据达不到其形式化标准时，也会偶尔错杀真实问题。逆向工程和本地代码分析是其最突出的技能之一，该模型可以对来自其他系统的发现结果进行分级和筛选。

Anthropic first unveiled Mythos in early April，最初仅向大约 50 家合作伙伴开放访问，并将其定位为 AI 网络安全能力的一个跨越式提升。随后，英国 AI 安全研究所表示，Mythos 和 GPT-5.5 都“远超”其加速版预期。该机构目前估计，网络攻防相关能力大约每 4.7 个月翻一番，相比 2025 年 11 月时给出的“约 8 个月翻番”预估明显加快。