Anthropic released its newest model, Claude Opus 4.8, 本周发布,在智能基准测试中以微弱优势领先,但在编写软件漏洞利用程序方面,仍落后于公司受限开放的 Mythos 系统。
关键点:
- Claude Opus 4.8 以 61.4 分的成绩,微弱领先人工分析智能指数(Artificial Analysis Intelligence Index),略高于 GPT-5.5 的 60.2 分。
- 在 Anthropic 的内部测试中,Mythos 在 70.8% 的 Firefox 目标上生成了可用的漏洞利用程序,而 Opus 4.8 仅为 8.8%。
- Mythos 仅向通过审查的 Project Glasswing 合作伙伴开放,而 Opus 4.8 则按与前代相同的价格对外提供。
Opus 4.8 的基准领先
公司本周推出 Opus 4.8,并将其定价为每百万输入 token 5 美元、每百万输出 25 美元,价格与此前的 Opus 4.7 保持一致。
独立测试方报告称,该模型目前在人工分析智能指数中以 61.4 分领跑,这是十项评估的综合得分,略高于 GPT-5.5 的 60.2 分。Anthropic 将此次升级描述为一次温和的、渐进式改进,而非从命名上看似的“代际飞跃”。
在智能代理编程方面,Opus 4.8 在 SWE-bench Pro 上取得了 69.2% 的得分。该基准要求模型在大型代码仓库中修复真实 bug,而 GPT-5.5 的成绩为 58.6%。
在研究生水平的科学问答上,两套系统几乎打成平手,都接近 94%,而在此前版本落后的综合推理测试中,Opus 4.8 略微领先。
在最困难的工程任务上,Mythos 则位居二者之上,在同一编程基准上取得 77.8% 的成绩,并在涉及代码与截图混合任务上拉开更大差距。Anthropic 将 Mythos 限制在其 Project Glasswing 计划下的特定合作伙伴使用,而非公开销售。预览阶段的收费为每百万 token 25 美元和 125 美元,是 Opus 费率的五倍。
另见: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Mythos 的网络攻防优势
最大的差距体现在进攻性安全领域。
在关闭安全防护后,Mythos 在 Anthropic 自身评估中,在 70.8% 的 Firefox 目标上生成了完整可运行的漏洞利用程序,而 Opus 4.8 仅达到 8.8%。
在另一项基于开源代码的测试中,Opus 4.8 在 61.5% 的目标上未能得分,失效率超过 Mythos 的两倍,而后者的失效率为 23.3%。
在由 Berkeley RDI 发起的跨模型公开试验中,每个系统都与各自的编程代理配对,测试覆盖 898 个真实世界漏洞,Mythos 编写了 157 个可用漏洞利用程序,而 GPT-5.5 为 120 个。
在内核级漏洞利用上,GPT-5.5 仍略占优势,在这一狭窄领域中以 22 比 12 领先 Mythos。**英国 AI 安全研究所(UK AI Security Institute)**则在专家级网络安全任务上将 GPT-5.5 的得分定为 71.4%,略高于 Mythos 的 68.6%。
Anthropic 于 4 月推出 Mythos,当时该模型在主要操作系统和所有主流浏览器中发现了数千个此前未知的漏洞,其中仅 Firefox 就报告了数百个。公司随后选择不对公众开放该模型,担心其强大的漏洞利用编写能力既能帮助防御者,也同样可能被攻击者所利用。
下篇阅读: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





