Anthropic 于周四发布了 Claude Opus 4.8, 将这款升级模型定位为更诚实、比前代更不容易编造事实的版本。
要点概览:
- Anthropic 周四推出 Claude Opus 4.8,称“诚实”是其最突出的提升。
- 公司表示,该模型在放过代码缺陷方面的概率大约降低了四倍。
- 快速模式现已提速至 2.5 倍,费用则降至原来的三分之一。
Anthropic 主打 Opus 4.8 的“诚实”特性
公司于周四发布该模型, 将其描述为在 Opus 4.7 基础上的稳步迭代而非彻底重构, 大多数基准测试分数都只是小幅提升。 在 SWE-Bench Pro 编码测试中,它的得分 为 69.2%,高于前一版本的 64.3%,也领先 OpenAI 的 GPT-5.5(58.6%)。
“诚实”成为焦点。Anthropic 指出,AI 模型经常会草率下结论, 在证据薄弱时宣称取得进展,而早期测试者发现, 4.8 在长时间、无人值守任务中更快承认自己的不确定。 其测试显示, 相比 4.7,新模型在放过代码缺陷这一点上的概率约降低了四倍。
这次升级随附了新的控制选项, 包括允许用户调节模型在任务上“用力程度”的设置,现已在所有套餐中开放。 Anthropic 还下调了快速模式的价格:在该模式下,模型以正常速度 2.5 倍运行, 费用降到旧型号的三分之一。
延伸阅读: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures
Pritchard 支持 Opus 4.8 的判断力
Shopify 资深工程师 Tom Pritchard 在接受 采访时表示, 该模型的“编码版”在判断力方面好得多。 他指出,这个模型“会问对问题,能抓到自己的错误”, 并且在方案显得薄弱时会主动提出异议。 对那些曾被 AI 代理误删生产数据库的团队来说, 这种承诺可能格外重要。
但并非所有人都被说服。
在 Reddit 上,许多用户质疑官方给出的基准图表, 总体氛围可以概括为“没人信”, 也有人担心会失去自己更习惯用于日常工作的旧版 Opus 4.6。
Opus 4.8 为 Anthropic 的快速攻势画上句号
这一发布正值实验室的高光时刻。 在一轮规模跻身科技行业前列的新融资后, Anthropic 的估值已经攀升至超过 OpenAI 约 9650 亿美元的水平。 市场普遍预期公司将于今年晚些时候谋求公开上市。
此次发布也为一连串快速升级画上了阶段性句号: Opus 4.7 才在一个多月前刚刚 面向用户推出, 当时同样伴随着基准测试存疑的争议。 此后,Anthropic 又预告了 Mythos—— 一款更强大的模型,但因网络安全担忧而暂缓公开。
下篇阅读: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak





