Anthropic released its newest model, Claude Opus 4.8, 本周上线,在智能基准上略占优势,但在编写软件漏洞利用方面仍落后于公司受限的 Mythos 系统。
要点:
- Claude Opus 4.8 以 61.4 分的成绩,微弱领先人工分析智能指数(Artificial Analysis Intelligence Index),略高于 GPT-5.5 的 60.2 分。
- 在 Anthropic 的内部测试中,Mythos 在 70.8% 的 Firefox 目标上生成了可用漏洞利用,而 Opus 4.8 仅为 8.8%。
- Mythos 仍只对通过审核的 Project Glasswing 合作伙伴开放,而 Opus 4.8 以与前代相同的价格发售。
Opus 4.8 基准测试领先
公司本周推出 Opus 4.8,并将其定价为每百万输入 token 5 美元、每百万输出 25 美元,延续此前 Opus 4.7 的费率。
独立测试人员报告称,该模型现在以 61.4 分领跑由十项评估综合而成的人工分析智能指数,略高于 GPT-5.5 的 60.2 分。Anthropic 将此次升级描述为温和的、渐进式的提升,而非命名所暗示的世代飞跃。
在具备代理能力的编码任务上,Opus 4.8 在 SWE-bench Pro 上取得了 69.2% 的得分。该基准要求模型在大型代码库中修复真实缺陷,而 GPT-5.5 的成绩为 58.6%。
在研究生水平的科学问答上,两者几乎持平,均接近 94%;在此前落后的综合推理考试中,Opus 4.8 则略微领先。
在最难的工程任务上,Mythos 处于更高水平:在同一编码基准上取得 77.8%,并在将代码与截图混合的任务上拉开更大差距。Anthropic 将 Mythos 限制在其 Project Glasswing 项目下的一小部分审核合作伙伴使用,而不是公开销售。该公司在预览阶段收费为每百万 token 25 美元和 125 美元,是 Opus 费率的五倍。
延伸阅读: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Mythos 的网络攻防优势
最大的差距体现在攻防安全领域。
在关闭安全防护后,Mythos 在 Anthropic 自身评估中,对 70.8% 的 Firefox 目标生成了完整可用的漏洞利用,而 Opus 4.8 仅达到 8.8%。
在另一项基于开源代码的测试中,Opus 4.8 有 61.5% 的目标完全未得分,超过 Mythos 23.3% 未命中率的两倍。
由 Berkeley RDI 公开运行的跨模型试验中,每个系统都与其自身的编码代理配对,在 898 个真实世界漏洞上进行测试,其中 Mythos 写出了 157 个可用漏洞利用,而 GPT-5.5 为 120 个。
在内核级漏洞利用上,GPT-5.5 仍略占优势,在这一狭窄领域以 22 比 12 领先 Mythos。**英国 AI 安全研究所(UK AI Security Institute)**则在专家级网络安全任务上将 GPT-5.5 的得分评为 71.4%,略高于 Mythos 的 68.6%。
Anthropic 于四月发布 Mythos,当时该模型在各大操作系统和所有主流浏览器中发现了数千个此前未知的缺陷,其中仅 Firefox 就报告了数百个。公司随后选择不向公众开放该模型,担心同样的漏洞编写能力既能帮助防御方,也可能同样方便攻击者。
接下来阅读: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





