Anthropic 称全新 Claude Opus 4.8 能捕捉到 4 倍以上自身错误

Anthropic 称全新 Claude Opus 4.8 能捕捉到 4 倍以上自身错误

Anthropic 于周四发布了 Claude Opus 4.8, 将这款升级模型定位为更诚实、比前代更不容易编造事实的版本。

要点概览:

  • Anthropic 周四推出 Claude Opus 4.8,称“诚实”是其最突出的提升。
  • 公司表示,该模型在放过代码缺陷方面的概率大约降低了四倍。
  • 快速模式现已提速至 2.5 倍,费用则降至原来的三分之一。

Anthropic 主打 Opus 4.8 的“诚实”特性

公司于周四发布该模型, 将其描述为在 Opus 4.7 基础上的稳步迭代而非彻底重构, 大多数基准测试分数都只是小幅提升。 在 SWE-Bench Pro 编码测试中,它的得分 为 69.2%,高于前一版本的 64.3%,也领先 OpenAI 的 GPT-5.5(58.6%)。

“诚实”成为焦点。Anthropic 指出,AI 模型经常会草率下结论, 在证据薄弱时宣称取得进展,而早期测试者发现, 4.8 在长时间、无人值守任务中更快承认自己的不确定。 其测试显示, 相比 4.7,新模型在放过代码缺陷这一点上的概率约降低了四倍。

这次升级随附了新的控制选项, 包括允许用户调节模型在任务上“用力程度”的设置,现已在所有套餐中开放。 Anthropic 还下调了快速模式的价格:在该模式下,模型以正常速度 2.5 倍运行, 费用降到旧型号的三分之一。

延伸阅读: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard 支持 Opus 4.8 的判断力

Shopify 资深工程师 Tom Pritchard 在接受 采访时表示, 该模型的“编码版”在判断力方面好得多。 他指出,这个模型“会问对问题,能抓到自己的错误”, 并且在方案显得薄弱时会主动提出异议。 对那些曾被 AI 代理误删生产数据库的团队来说, 这种承诺可能格外重要。

但并非所有人都被说服。

在 Reddit 上,许多用户质疑官方给出的基准图表, 总体氛围可以概括为“没人信”, 也有人担心会失去自己更习惯用于日常工作的旧版 Opus 4.6。

Opus 4.8 为 Anthropic 的快速攻势画上句号

这一发布正值实验室的高光时刻。 在一轮规模跻身科技行业前列的新融资后, Anthropic 的估值已经攀升至超过 OpenAI 约 9650 亿美元的水平。 市场普遍预期公司将于今年晚些时候谋求公开上市。

此次发布也为一连串快速升级画上了阶段性句号: Opus 4.7 才在一个多月前刚刚 面向用户推出, 当时同样伴随着基准测试存疑的争议。 此后,Anthropic 又预告了 Mythos—— 一款更强大的模型,但因网络安全担忧而暂缓公开。

下篇阅读: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak

免责声明和风险警告: 本文提供的信息仅用于教育和信息目的,基于作者的意见。它不构成财务、投资、法律或税务建议。 加密货币资产具有高度波动性并面临高风险,包括失去全部或大部分投资的风险。交易或持有加密资产可能不适合所有投资者。 本文表达的观点仅为作者的观点,不代表Yellow、其创始人或高管的官方政策或立场。 在做出任何投资决定之前,请务必进行自己的全面研究(D.Y.O.R.)并咨询持牌金融专业人士。
Anthropic 称全新 Claude Opus 4.8 能捕捉到 4 倍以上自身错误 | Yellow.com