Anthropic 指新款 Claude Opus 4.8 能抓到自身錯誤的次數多四倍

Anthropic released Claude Opus 4.8 週四正式推出，並將這款升級模型定位為比前代更誠實、更不容易憑空捏造事實的版本。

重點整理：

Anthropic 於週四發佈 Claude Opus 4.8，並稱「誠實」是其最大亮點。

該公司表示，模型放過程式碼缺陷不抓出的機率，大約降到原來的四分之一。

快速模式現時運行速度為一般模式的 2.5 倍，費用則降至以往的三分之一。

Anthropic 主打 Opus 4.8 的「誠實」

該公司於週四發佈這款模型，將其描述為在 Opus 4.7 基礎上的穩健改版，而非全面重造，大部分基準測試分數僅略有提升。在 SWE-Bench Pro 程式測試中，它取得 69.2% 的成績，高於前一版本的 64.3%，亦領先 OpenAI 的 GPT-5.5（58.6%）。

「誠實」成為焦點。Anthropic 表示，AI 模型往往太快下結論，會在證據不足時宣稱已有進展，而早期測試者發現，4.8 在長時間、無人看管的任務中，更快承認自己有疑惑。其內部測試顯示，這款模型在放過程式錯誤而不指出方面，出錯率大約只有 4.7 的四分之一。

此次升級亦隨附全新控制項，包括讓使用者調整模型在任務上「出力程度」的設定，現在已適用於所有方案。Anthropic 亦下調快速模式的價格——該模式以 2.5 倍於一般速度運行，現時費用僅為早期模型的三分之一。

延伸閱讀： Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard 力讚 Opus 4.8 判斷力

Shopify 資深工程師 Tom Pritchard 在接受 Anthropic 訪問時表示，其程式版本展現出更佳的判斷能力。他說，這款模型「會問對的問題、抓出自己的錯誤」，並且在計劃看起來站不住腳時會提出質疑。對於曾被 AI 代理人誤刪線上正式環境資料庫的團隊來說，這類承諾尤其有分量。

但並非所有人都買帳。

在 Reddit 上，多數用戶質疑這些基準測試圖表，總結氣氛就是「沒人信」，也有人擔心失去仍然偏好作為日常工作主力的舊款 Opus 4.6。

Opus 4.8 為 Anthropic 迅猛成長封頂

這次發佈出現在實驗室的高光時刻。Anthropic 的估值在最新一輪融資後已攀升至逼近 OpenAI 約 9,650 億美元的水位，該輪融資亦是科技界規模最大的交易之一。投資者普遍預期公司將於今年稍後尋求公開上市。

Opus 4.8 亦為一連串快速升級劃上句號：Opus 4.7 於短短一個多月前才推送給用戶，當時同樣伴隨一陣對基準分數的質疑。其後 Anthropic 又預告 Mythos，這是一款更強大的模型，但基於網絡安全顧慮，暫時仍未向公眾開放。

下一篇閱讀： Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak