Anthropic's Mythos AI model 在发现软件漏洞方面领先竞争系统,但新的独立基准测试暴露出其判断能力较弱以及运行成本高昂的问题。
Mythos Preview 在源代码审计中领先
进攻性安全公司 XBOW confirmed 了这一核心结论。该公司组建了一个由 10 名专家组成的团队,从基准测试、工作流程和集成等多个维度对该模型进行评估。
XBOW 表示,Mythos Preview“相较所有现有模型都是一次显著的飞跃,不论提供商是谁”。测试人员将该模型应用于冻结的开源应用,这些应用中包含已知漏洞。
相比 Opus 4.6,Mythos 将漏报率降低了 42%;一旦模型获得源代码访问权限,这一降幅扩大到 55%,The Decoder reported。该模型在“在线环境 + 源码”测试中表现突出,但在只提供源代码时表现不够稳定。
Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB
成本问题削弱了 Anthropic 的领先优势
Anthropic 表示,Mythos Preview 的价格将大约是 Opus 模型的 5 倍,而后者本身已经是市场上最昂贵的选项之一。高溢价促使 XBOW 测试:如果给予更长运行时间,价格更便宜的竞品能否与 Mythos 抗衡。
结果显示可以。在固定的网页漏洞发现 token 预算下,Mythos 战胜了 Opus 4.6,却输给了 OpenAI's GPT-5.5,后者在 XBOW 的记录中recorded 漏报率为 10%。XBOW 指出,如果目标是追求准确率,该模型“并不算特别低效”,但一旦考虑成本归一化,它就不再是同级最优。
该公司目前建议采用多模型混合运行,而不是依赖单一模型。
Mythos AI 性能表现的整体背景
Mythos 在判断力方面表现参差不齐:它比前代更善于拒绝误报,但有时也会在证据达不到其正式标准时丢弃真实漏洞。在逆向工程和本地代码分析方面,它展现出最为突出的能力之一,并能够对其他系统的发现结果进行分级和筛选。
Anthropic first unveiled Mythos in early April,当时仅向大约 50 家合作伙伴开放访问,并将这一发布定位为 AI 网络安全能力的跨越式升级。英国 AI 安全研究所随后表示,Mythos 和 GPT-5.5 都“远超”其此前的加速预期。该机构目前估计,网络攻防能力的翻倍周期为 4.7 个月,低于 2025 年 11 月给出的 8 个月预估。
Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%





