Anthropic released Claude Opus 4.8 於週四正式推出,將這版升級模型定位為更誠實、較少憑空捏造事實的版本,取代先前的型號。
重點摘要:
- Anthropic 於週四發佈 Claude Opus 4.8,並稱「誠實」是此版本最突出的提升。
- 公司表示,模型放過程式錯誤不報的機率,大約降低到原來的四分之一。
- 快模式現在運行速度約為先前的 2.5 倍,價格則壓到原來的大約三分之一。
Anthropic 主打 Opus 4.8 的誠實性
公司在週四發表這款模型時表示,這次更像是在 Opus 4.7 基礎上的穩健迭代,而不是完全重做,多數基準測試分數只是小幅上升。在 SWE-Bench Pro 程式測試上,它的得分為 69.2%,優於前一版的 64.3%,也領先 OpenAI 的 GPT-5.5(58.6%)。
誠實性成為焦點。Anthropic 指出,AI 模型經常過度下結論,在證據薄弱時就宣稱有進展,而早期測試者發現 4.8 在長時間、無人監看的任務中,更快承認自己有疑慮。公司測試顯示,與 4.7 相比,這款模型放過程式錯誤而不提出警告的機率約降低四倍。
這次升級也隨附了新的控制選項,包括讓使用者自行調整模型在特定任務上「出力程度」的設定,而且現在所有方案都可使用。Anthropic 也下調快模式的價格——在該模式下,模型速度約為一般模式的 2.5 倍,收費則只有舊版的三分之一左右。
延伸閱讀: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures
Pritchard 力挺 Opus 4.8 的判斷力
Shopify 資深工程師 Tom Pritchard 在接受 Anthropic 訪談時表示,專為寫程式調校的版本展現出「更好的判斷力」。他說,這個模型「會問對的問題、會抓出自己的錯誤」,而且當計畫看起來站不住腳時,也會提出反對。對那些曾被 AI 代理搞到「誤刪線上正式環境資料庫」的團隊來說,這樣的承諾分量不小。
並非所有人都被說服。
在 Reddit 上,許多使用者質疑官方公布的基準測試圖表,形容整體氣氛是「沒人真心相信」,也有人擔心失去他們仍偏好、用來日常工作的舊版 Opus 4.6。
Opus 4.8 為 Anthropic 急速成長再添一筆
這次發表正逢實驗室高光時刻。Anthropic 估值在最新一輪融資後已攀升到超過 OpenAI 近 9,650 億美元門檻,這一輪也被列為科技圈金額最大的募資之一。投資人普遍預期公司將在今年稍晚推進公開上市計畫。
這次釋出同時也為一連串快速升級畫下句點:Opus 4.7 才在大約一個月前剛剛上線,並同樣被各種基準測試的爭議陰影籠罩。此後,Anthropic 又預告了 Mythos,一款更強大的模型,但因網路安全考量,目前仍未向大眾開放。
下一篇閱讀: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak





