Anthropic 稱新版 Claude Opus 4.8 能抓到自身錯誤的次數提升四倍

Anthropic 稱新版 Claude Opus 4.8 能抓到自身錯誤的次數提升四倍

Anthropic released Claude Opus 4.8 於週四正式推出,將這版升級模型定位為更誠實、較少憑空捏造事實的版本,取代先前的型號。

重點摘要:

  • Anthropic 於週四發佈 Claude Opus 4.8,並稱「誠實」是此版本最突出的提升。
  • 公司表示,模型放過程式錯誤不報的機率,大約降低到原來的四分之一。
  • 快模式現在運行速度約為先前的 2.5 倍,價格則壓到原來的大約三分之一。

Anthropic 主打 Opus 4.8 的誠實性

公司在週四發表這款模型時表示,這次更像是在 Opus 4.7 基礎上的穩健迭代,而不是完全重做,多數基準測試分數只是小幅上升。在 SWE-Bench Pro 程式測試上,它的得分為 69.2%,優於前一版的 64.3%,也領先 OpenAI 的 GPT-5.5(58.6%)。

誠實性成為焦點。Anthropic 指出,AI 模型經常過度下結論,在證據薄弱時就宣稱有進展,而早期測試者發現 4.8 在長時間、無人監看的任務中,更快承認自己有疑慮。公司測試顯示,與 4.7 相比,這款模型放過程式錯誤而不提出警告的機率約降低四倍。

這次升級也隨附了新的控制選項,包括讓使用者自行調整模型在特定任務上「出力程度」的設定,而且現在所有方案都可使用。Anthropic 也下調快模式的價格——在該模式下,模型速度約為一般模式的 2.5 倍,收費則只有舊版的三分之一左右。

延伸閱讀: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard 力挺 Opus 4.8 的判斷力

Shopify 資深工程師 Tom Pritchard 在接受 Anthropic 訪談時表示,專為寫程式調校的版本展現出「更好的判斷力」。他說,這個模型「會問對的問題、會抓出自己的錯誤」,而且當計畫看起來站不住腳時,也會提出反對。對那些曾被 AI 代理搞到「誤刪線上正式環境資料庫」的團隊來說,這樣的承諾分量不小。

並非所有人都被說服。

在 Reddit 上,許多使用者質疑官方公布的基準測試圖表,形容整體氣氛是「沒人真心相信」,也有人擔心失去他們仍偏好、用來日常工作的舊版 Opus 4.6。

Opus 4.8 為 Anthropic 急速成長再添一筆

這次發表正逢實驗室高光時刻。Anthropic 估值在最新一輪融資後已攀升到超過 OpenAI 近 9,650 億美元門檻,這一輪也被列為科技圈金額最大的募資之一。投資人普遍預期公司將在今年稍晚推進公開上市計畫。

這次釋出同時也為一連串快速升級畫下句點:Opus 4.7 才在大約一個月前剛剛上線,並同樣被各種基準測試的爭議陰影籠罩。此後,Anthropic 又預告了 Mythos,一款更強大的模型,但因網路安全考量,目前仍未向大眾開放。

下一篇閱讀: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak

免責聲明與風險警告: 本文提供的資訊僅供教育與參考用途,並基於作者觀點,不構成財務、投資、法律或稅務建議。 加密貨幣資產具有高度波動性並伴隨高風險,包括可能損失全部或大部分投資金額。買賣或持有加密資產可能並不適合所有投資者。 本文中所表達的觀點僅代表作者立場,不代表 Yellow、其創辦人或管理層的官方政策或意見。 請務必自行進行充分研究(D.Y.O.R.),並在做出任何投資決策前諮詢持牌金融專業人士。
Anthropic 稱新版 Claude Opus 4.8 能抓到自身錯誤的次數提升四倍 | Yellow.com