Anthropic 称新版 Claude Opus 4.8 能发现自身错误的次数提升至四倍

Anthropic 称新版 Claude Opus 4.8 能发现自身错误的次数提升至四倍

Anthropic released Claude Opus 4.8 于周四发布,将这款升级模型定位为比前代更诚实、更不容易编造事实的版本。

关键点:

  • Anthropic 周四发布 Claude Opus 4.8,称“诚实”是其最突出的提升。
  • 公司称,该模型放过代码缺陷的概率大约降低到原来的四分之一。
  • 快速模式现在速度提升 2.5 倍,费用降至之前的三分之一。

Anthropic 主打 Opus 4.8 的“诚实”

公司在周四发布了该模型,表示这是在 Opus 4.7 基础上的稳步迭代,而非彻底重塑,多数基准测试分数只是小幅上升。在 SWE-Bench Pro 编码测试中,它取得了 69.2% 的成绩,高于上一版本的 64.3%,也领先 OpenAI 的 GPT-5.5(58.6%)。

“诚实”成为焦点。Anthropic 称,AI 模型常常草率下结论,在证据单薄时就声称取得进展,而早期测试者发现 4.8 在长时间无人值守任务中更快承认自己有疑虑。其测试显示,与 4.7 相比,该模型放过代码缺陷而不予指出的概率大约降低了四倍。

此次升级推出了新的控制项,包括一项可让用户调节模型在任务上“用力程度”的设置,现在在所有套餐中都可用。Anthropic 还下调了快速模式的价格:该模式下模型以正常速度的 2.5 倍运行,费用则为旧款模型的三分之一。

延伸阅读: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard 认可 Opus 4.8 的判断力

Shopify 的资深工程师 Tom Pritchard 表示,针对编程场景调优的版本在判断力上有明显进步。他称该模型“会问对的问题,能抓到自己的错误”,并且在方案看起来站不住脚时会提出异议。对于那些被 AI 代理“坑过”、导致线上生产数据库被清空的团队,这种承诺可能分量十足。

但也并非所有人都信服。

在 Reddit 上,许多用户质疑这些基准图表,总体情绪可概括为“没人信”,还有人担心会失去他们仍偏好用于日常工作的旧版 Opus 4.6。

Opus 4.8 标志 Anthropic 新一轮跃升

此次发布恰逢这家实验室的高光时刻。Anthropic 的估值在最新一轮融资后攀升至超过 OpenAI 近 9650 亿美元的水平,跻身科技史上最大规模融资之一。投资者普遍预计公司将在今年晚些时候寻求公开上市。

此次发布也为一连串快速升级画上阶段性句号:Opus 4.7 面向用户推出还不到一个月,当时同样笼罩在对基准测试的质疑声中。此后,Anthropic 已预告 Mythos,一款更强大的模型,但因网络安全担忧而对公众暂时保留。

下篇阅读: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak

免责声明和风险警告: 本文提供的信息仅用于教育和信息目的,基于作者的意见。它不构成财务、投资、法律或税务建议。 加密货币资产具有高度波动性并面临高风险,包括失去全部或大部分投资的风险。交易或持有加密资产可能不适合所有投资者。 本文表达的观点仅为作者的观点,不代表Yellow、其创始人或高管的官方政策或立场。 在做出任何投资决定之前,请务必进行自己的全面研究(D.Y.O.R.)并咨询持牌金融专业人士。
Anthropic 称新版 Claude Opus 4.8 能发现自身错误的次数提升至四倍 | Yellow.com