Anthropic released Claude Opus 4.8 於週四正式推出,宣稱這款升級模型比前一版更誠實,也更不容易捏造事實。
重點摘要:
- Anthropic 於週四發布 Claude Opus 4.8,並稱「誠實度」是其最突出提升。
- 依公司說法,模型放過程式碼錯誤不管的機率大約降低到原本的四分之一。
- 快速模式現在執行速度提升至 2.5 倍,費用則降為先前的三分之一。
Anthropic 主打 Opus 4.8 的誠實表現
該公司於週四發表這款模型,把它定位為 Opus 4.7 的穩健延伸,而非徹底重做,多數基準測試分數僅小幅上升。在 SWE-Bench Pro 程式碼測試中,它拿下 69.2% 的成績,高於前一版的 64.3%,也領先 OpenAI 的 GPT-5.5(58.6%)。
誠實度成為焦點。Anthropic 表示,AI 模型常會草率下結論、在證據薄弱時宣稱已有進展,而早期測試者發現 4.8 在長時間、無人監看的任務中,更快願意承認自己的不確定。其內部測試顯示,相較 4.7,這個模型放過程式碼缺陷卻不加以指出的可能性約降低四倍。
這次升級隨附一批新控制選項,其中包括可由使用者調整「模型在任務上要多用力」的設定,現在在所有方案中皆可使用。Anthropic 也下調快速模式價格,該模式下模型以 2.5 倍常態速度運行,費用則降為舊款模型的三分之一。
延伸閱讀: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures
Pritchard 稱讚 Opus 4.8 的判斷力
Shopify 資深工程師 Tom Pritchard 在接受 Anthropic 訪談時表示,這款偏重程式開發版本的模型,在判斷力上好得多。他說,模型「會問對的問題、會抓出自己的錯誤」,而且在計畫看起來站不住腳時會提出反對。對於曾被 AI 代理人誤刪正式環境資料庫的團隊而言,這樣的承諾可能相當有分量。
並非所有人都被說服。
在 Reddit 上,許多使用者質疑這些基準圖表,總體氣氛是「沒人相信它們」,也有人擔心失去仍偏好用於日常工作的舊版 Opus 4.6。
Opus 4.8 為 Anthropic 快速成長再添一筆
這次發表的時間點,正值該研究實驗室風頭正盛。Anthropic 在最新一輪融資後,估值已攀升到逼近 OpenAI、約 9,650 億美元的水準,此輪融資也被列為科技業史上金額最大之一。投資人普遍預期該公司將在今年晚些時候尋求公開上市。
這次發布,也為一連串快速升級畫下最新句點;Opus 4.7 才在大約一個月前推向使用者,當時同樣伴隨著對基準測試的質疑。Anthropic 此後還預告了 Mythos,一款更強大的模型,但因網路安全顧慮而暫不向公眾開放。
接下來看: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak





