Anthropic 指新款 Claude Opus 4.8 能抓到自身錯誤的次數多四倍

Anthropic 指新款 Claude Opus 4.8 能抓到自身錯誤的次數多四倍

Anthropic released Claude Opus 4.8 週四正式推出,並將這款升級模型定位為比前代更誠實、更不容易憑空捏造事實的版本。

重點整理:

  • Anthropic 於週四發佈 Claude Opus 4.8,並稱「誠實」是其最大亮點。
  • 該公司表示,模型放過程式碼缺陷不抓出的機率,大約降到原來的四分之一。
  • 快速模式現時運行速度為一般模式的 2.5 倍,費用則降至以往的三分之一。

Anthropic 主打 Opus 4.8 的「誠實」

該公司於週四發佈這款模型,將其描述為在 Opus 4.7 基礎上的穩健改版,而非全面重造,大部分基準測試分數僅略有提升。在 SWE-Bench Pro 程式測試中,它取得 69.2% 的成績,高於前一版本的 64.3%,亦領先 OpenAI 的 GPT-5.5(58.6%)。

「誠實」成為焦點。Anthropic 表示,AI 模型往往太快下結論,會在證據不足時宣稱已有進展,而早期測試者發現,4.8 在長時間、無人看管的任務中,更快承認自己有疑惑。其內部測試顯示,這款模型在放過程式錯誤而不指出方面,出錯率大約只有 4.7 的四分之一。

此次升級亦隨附全新控制項,包括讓使用者調整模型在任務上「出力程度」的設定,現在已適用於所有方案。Anthropic 亦下調快速模式的價格——該模式以 2.5 倍於一般速度運行,現時費用僅為早期模型的三分之一。

延伸閱讀: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard 力讚 Opus 4.8 判斷力

Shopify 資深工程師 Tom Pritchard 在接受 Anthropic 訪問時表示,其程式版本展現出更佳的判斷能力。他說,這款模型「會問對的問題、抓出自己的錯誤」,並且在計劃看起來站不住腳時會提出質疑。對於曾被 AI 代理人誤刪線上正式環境資料庫的團隊來說,這類承諾尤其有分量。

但並非所有人都買帳。

在 Reddit 上,多數用戶質疑這些基準測試圖表,總結氣氛就是「沒人信」,也有人擔心失去仍然偏好作為日常工作主力的舊款 Opus 4.6。

Opus 4.8 為 Anthropic 迅猛成長封頂

這次發佈出現在實驗室的高光時刻。Anthropic 的估值在最新一輪融資後已攀升至逼近 OpenAI 約 9,650 億美元的水位,該輪融資亦是科技界規模最大的交易之一。投資者普遍預期公司將於今年稍後尋求公開上市。

Opus 4.8 亦為一連串快速升級劃上句號:Opus 4.7 於短短一個多月前才推送給用戶,當時同樣伴隨一陣對基準分數的質疑。其後 Anthropic 又預告 Mythos,這是一款更強大的模型,但基於網絡安全顧慮,暫時仍未向公眾開放。

下一篇閱讀: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak

免責聲明及風險提示: 本文資訊僅供教育與參考之用,並基於作者意見,並不構成金融、投資、法律或稅務建議。 加密貨幣資產具高度波動性並伴隨高風險,可能導致投資大幅虧損或全部損失,並非適合所有投資者。 文章內容僅代表作者觀點,不代表 Yellow、創辦人或管理層立場。 投資前請務必自行徹底研究(D.Y.O.R.),並諮詢持牌金融專業人士。
Anthropic 指新款 Claude Opus 4.8 能抓到自身錯誤的次數多四倍 | Yellow.com