Claude Mythos AI 在代码审计中领先对手,却因价格高出 5 倍而失利

Claude Mythos AI 在代码审计中领先对手,却因价格高出 5 倍而失利

Anthropic's Mythos AI model 在发现软件漏洞方面领先竞争系统,但新的独立基准测试暴露出其判断能力较弱以及运行成本高昂的问题。

Mythos Preview 在源代码审计中领先

进攻性安全公司 XBOW confirmed 了这一核心结论。该公司组建了一个由 10 名专家组成的团队,从基准测试、工作流程和集成等多个维度对该模型进行评估。

XBOW 表示,Mythos Preview“相较所有现有模型都是一次显著的飞跃,不论提供商是谁”。测试人员将该模型应用于冻结的开源应用,这些应用中包含已知漏洞。

相比 Opus 4.6,Mythos 将漏报率降低了 42%;一旦模型获得源代码访问权限,这一降幅扩大到 55%,The Decoder reported。该模型在“在线环境 + 源码”测试中表现突出,但在只提供源代码时表现不够稳定。

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

成本问题削弱了 Anthropic 的领先优势

Anthropic 表示,Mythos Preview 的价格将大约是 Opus 模型的 5 倍,而后者本身已经是市场上最昂贵的选项之一。高溢价促使 XBOW 测试:如果给予更长运行时间,价格更便宜的竞品能否与 Mythos 抗衡。

结果显示可以。在固定的网页漏洞发现 token 预算下,Mythos 战胜了 Opus 4.6,却输给了 OpenAI's GPT-5.5,后者在 XBOW 的记录中recorded 漏报率为 10%。XBOW 指出,如果目标是追求准确率,该模型“并不算特别低效”,但一旦考虑成本归一化,它就不再是同级最优。

该公司目前建议采用多模型混合运行,而不是依赖单一模型。

Mythos AI 性能表现的整体背景

Mythos 在判断力方面表现参差不齐:它比前代更善于拒绝误报,但有时也会在证据达不到其正式标准时丢弃真实漏洞。在逆向工程和本地代码分析方面,它展现出最为突出的能力之一,并能够对其他系统的发现结果进行分级和筛选。

Anthropic first unveiled Mythos in early April,当时仅向大约 50 家合作伙伴开放访问,并将这一发布定位为 AI 网络安全能力的跨越式升级。英国 AI 安全研究所随后表示,Mythos 和 GPT-5.5 都“远超”其此前的加速预期。该机构目前估计,网络攻防能力的翻倍周期为 4.7 个月,低于 2025 年 11 月给出的 8 个月预估。

Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%

免责声明和风险警告: 本文提供的信息仅用于教育和信息目的,基于作者的意见。它不构成财务、投资、法律或税务建议。 加密货币资产具有高度波动性并面临高风险,包括失去全部或大部分投资的风险。交易或持有加密资产可能不适合所有投资者。 本文表达的观点仅为作者的观点,不代表Yellow、其创始人或高管的官方政策或立场。 在做出任何投资决定之前,请务必进行自己的全面研究(D.Y.O.R.)并咨询持牌金融专业人士。
Claude Mythos AI 在代码审计中领先对手,却因价格高出 5 倍而失利 | Yellow.com