Anthropic released Claude Opus 4.8 于周四发布,将这款升级模型定位为比前代更诚实、更不容易编造事实的版本。
关键点:
- Anthropic 周四发布 Claude Opus 4.8,称“诚实”是其最突出的提升。
- 公司称,该模型放过代码缺陷的概率大约降低到原来的四分之一。
- 快速模式现在速度提升 2.5 倍,费用降至之前的三分之一。
Anthropic 主打 Opus 4.8 的“诚实”
公司在周四发布了该模型,表示这是在 Opus 4.7 基础上的稳步迭代,而非彻底重塑,多数基准测试分数只是小幅上升。在 SWE-Bench Pro 编码测试中,它取得了 69.2% 的成绩,高于上一版本的 64.3%,也领先 OpenAI 的 GPT-5.5(58.6%)。
“诚实”成为焦点。Anthropic 称,AI 模型常常草率下结论,在证据单薄时就声称取得进展,而早期测试者发现 4.8 在长时间无人值守任务中更快承认自己有疑虑。其测试显示,与 4.7 相比,该模型放过代码缺陷而不予指出的概率大约降低了四倍。
此次升级推出了新的控制项,包括一项可让用户调节模型在任务上“用力程度”的设置,现在在所有套餐中都可用。Anthropic 还下调了快速模式的价格:该模式下模型以正常速度的 2.5 倍运行,费用则为旧款模型的三分之一。
延伸阅读: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures
Pritchard 认可 Opus 4.8 的判断力
Shopify 的资深工程师 Tom Pritchard 表示,针对编程场景调优的版本在判断力上有明显进步。他称该模型“会问对的问题,能抓到自己的错误”,并且在方案看起来站不住脚时会提出异议。对于那些被 AI 代理“坑过”、导致线上生产数据库被清空的团队,这种承诺可能分量十足。
但也并非所有人都信服。
在 Reddit 上,许多用户质疑这些基准图表,总体情绪可概括为“没人信”,还有人担心会失去他们仍偏好用于日常工作的旧版 Opus 4.6。
Opus 4.8 标志 Anthropic 新一轮跃升
此次发布恰逢这家实验室的高光时刻。Anthropic 的估值在最新一轮融资后攀升至超过 OpenAI 近 9650 亿美元的水平,跻身科技史上最大规模融资之一。投资者普遍预计公司将在今年晚些时候寻求公开上市。
此次发布也为一连串快速升级画上阶段性句号:Opus 4.7 面向用户推出还不到一个月,当时同样笼罩在对基准测试的质疑声中。此后,Anthropic 已预告 Mythos,一款更强大的模型,但因网络安全担忧而对公众暂时保留。
下篇阅读: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak





