Anthropic released Claude Opus 4.8 於星期四推出,並稱這個升級版模型比前一代更誠實,也更不容易捏造事實。
重點摘要:
- Anthropic 於星期四發佈 Claude Opus 4.8,稱「誠實」是這次最突出的提升。
- 公司表示,模型讓程式錯誤漏網的機率大約降低了四倍。
- 快速模式現時運行速度約為以往的 2.5 倍、費用則只需過去的三分之一。
Anthropic 主打 Opus 4.8 的誠實度
公司於星期四公佈這個模型,形容它是在 Opus 4.7 基礎上的穩步改良,而不是徹底重做,大部分基準測試分數只略有上升。在 SWE-Bench Pro 程式測試中,它取得 69.2% 成績,高於前一版的 64.3%,亦領先 OpenAI 的 GPT-5.5(58.6%)。
誠實度成為焦點。Anthropic 指出,AI 模型經常過早下結論,會在證據薄弱時宣稱已有進展,而早期測試者發現 4.8 在長時間、無人看管的任務中,更快承認自己有疑問。其測試顯示,相比 4.7,新模型放過未標註程式錯誤的機率大約降至四分之一。
這次升級亦加入新控制選項,包括讓用戶自行調節模型在任務上「用力程度」的設定,現在在所有方案中都可使用。Anthropic 同時下調快速模式價格:在此模式下,模型以 2.5 倍於一般速度運行,而費用則降至舊版的三分之一。
延伸閱讀: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures
Pritchard 力撐 Opus 4.8 的判斷力
Shopify 資深工程師 Tom Pritchard 向 Anthropic 表示,程式碼版本在判斷力方面好得多。他說,這個模型「會問對的問題、捉到自己的錯誤」,而且在計劃看起來薄弱時會提出反對。對於曾被 AI 代理人刪掉線上正式資料庫的團隊來說,這種承諾或許格外重要。
不過,並非所有人都買帳。
在 Reddit 上,許多用戶質疑這些基準圖表,用「沒有人信」來總結整體氣氛;也有人擔心會失去他們仍偏好、日常工作依賴的舊版 Opus 4.6。
Opus 4.8 為 Anthropic 快速躍升畫上句號
這次發佈正值公司風頭一時無兩之際。Anthropic 估值在最新一輪融資後已攀升至超越 OpenAI、逼近 9,650 億美元的水平,此輪融資亦屬科技界最大宗之一。市場普遍預期公司會在今年稍後尋求上市。
這次推出同時為一輪快速升級劃上句號;Opus 4.7 才在一個多月前面世,當時同樣伴隨對基準測試的質疑。此後,Anthropic 已預告 Mythos,一個更強大的模型,但因網絡安全顧慮而暫不向公眾開放。
下一篇閱讀: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak





