Anthropic 稱全新 Claude Opus 4.8 能捉到自身錯誤次數提升四倍

Anthropic 稱全新 Claude Opus 4.8 能捉到自身錯誤次數提升四倍

Anthropic released Claude Opus 4.8 於星期四推出,並稱這個升級版模型比前一代更誠實,也更不容易捏造事實。

重點摘要:

  • Anthropic 於星期四發佈 Claude Opus 4.8,稱「誠實」是這次最突出的提升。
  • 公司表示,模型讓程式錯誤漏網的機率大約降低了四倍。
  • 快速模式現時運行速度約為以往的 2.5 倍、費用則只需過去的三分之一。

Anthropic 主打 Opus 4.8 的誠實度

公司於星期四公佈這個模型,形容它是在 Opus 4.7 基礎上的穩步改良,而不是徹底重做,大部分基準測試分數只略有上升。在 SWE-Bench Pro 程式測試中,它取得 69.2% 成績,高於前一版的 64.3%,亦領先 OpenAI 的 GPT-5.5(58.6%)。

誠實度成為焦點。Anthropic 指出,AI 模型經常過早下結論,會在證據薄弱時宣稱已有進展,而早期測試者發現 4.8 在長時間、無人看管的任務中,更快承認自己有疑問。其測試顯示,相比 4.7,新模型放過未標註程式錯誤的機率大約降至四分之一。

這次升級亦加入新控制選項,包括讓用戶自行調節模型在任務上「用力程度」的設定,現在在所有方案中都可使用。Anthropic 同時下調快速模式價格:在此模式下,模型以 2.5 倍於一般速度運行,而費用則降至舊版的三分之一。

延伸閱讀: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard 力撐 Opus 4.8 的判斷力

Shopify 資深工程師 Tom Pritchard Anthropic 表示,程式碼版本在判斷力方面好得多。他說,這個模型「會問對的問題、捉到自己的錯誤」,而且在計劃看起來薄弱時會提出反對。對於曾被 AI 代理人刪掉線上正式資料庫的團隊來說,這種承諾或許格外重要。

不過,並非所有人都買帳。

在 Reddit 上,許多用戶質疑這些基準圖表,用「沒有人信」來總結整體氣氛;也有人擔心會失去他們仍偏好、日常工作依賴的舊版 Opus 4.6。

Opus 4.8 為 Anthropic 快速躍升畫上句號

這次發佈正值公司風頭一時無兩之際。Anthropic 估值在最新一輪融資後已攀升至超越 OpenAI、逼近 9,650 億美元的水平,此輪融資亦屬科技界最大宗之一。市場普遍預期公司會在今年稍後尋求上市。

這次推出同時為一輪快速升級劃上句號;Opus 4.7 才在一個多月前面世,當時同樣伴隨對基準測試的質疑。此後,Anthropic 已預告 Mythos,一個更強大的模型,但因網絡安全顧慮而暫不向公眾開放。

下一篇閱讀: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak

免責聲明及風險提示: 本文資訊僅供教育與參考之用,並基於作者意見,並不構成金融、投資、法律或稅務建議。 加密貨幣資產具高度波動性並伴隨高風險,可能導致投資大幅虧損或全部損失,並非適合所有投資者。 文章內容僅代表作者觀點,不代表 Yellow、創辦人或管理層立場。 投資前請務必自行徹底研究(D.Y.O.R.),並諮詢持牌金融專業人士。