Anthropic 稱新款 Claude Opus 4.8 能抓出自身錯誤的次數提升四倍

Anthropic 稱新款 Claude Opus 4.8 能抓出自身錯誤的次數提升四倍

Anthropic released Claude Opus 4.8 於週四正式推出,宣稱這款升級模型比前一版更誠實,也更不容易捏造事實。

重點摘要:

  • Anthropic 於週四發布 Claude Opus 4.8,並稱「誠實度」是其最突出提升。
  • 依公司說法,模型放過程式碼錯誤不管的機率大約降低到原本的四分之一。
  • 快速模式現在執行速度提升至 2.5 倍,費用則降為先前的三分之一。

Anthropic 主打 Opus 4.8 的誠實表現

該公司於週四發表這款模型,把它定位為 Opus 4.7 的穩健延伸,而非徹底重做,多數基準測試分數僅小幅上升。在 SWE-Bench Pro 程式碼測試中,它拿下 69.2% 的成績,高於前一版的 64.3%,也領先 OpenAI 的 GPT-5.5(58.6%)。

誠實度成為焦點。Anthropic 表示,AI 模型常會草率下結論、在證據薄弱時宣稱已有進展,而早期測試者發現 4.8 在長時間、無人監看的任務中,更快願意承認自己的不確定。其內部測試顯示,相較 4.7,這個模型放過程式碼缺陷卻不加以指出的可能性約降低四倍。

這次升級隨附一批新控制選項,其中包括可由使用者調整「模型在任務上要多用力」的設定,現在在所有方案中皆可使用。Anthropic 也下調快速模式價格,該模式下模型以 2.5 倍常態速度運行,費用則降為舊款模型的三分之一。

延伸閱讀: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard 稱讚 Opus 4.8 的判斷力

Shopify 資深工程師 Tom Pritchard 在接受 Anthropic 訪談時表示,這款偏重程式開發版本的模型,在判斷力上好得多。他說,模型「會問對的問題、會抓出自己的錯誤」,而且在計畫看起來站不住腳時會提出反對。對於曾被 AI 代理人誤刪正式環境資料庫的團隊而言,這樣的承諾可能相當有分量。

並非所有人都被說服。

在 Reddit 上,許多使用者質疑這些基準圖表,總體氣氛是「沒人相信它們」,也有人擔心失去仍偏好用於日常工作的舊版 Opus 4.6。

Opus 4.8 為 Anthropic 快速成長再添一筆

這次發表的時間點,正值該研究實驗室風頭正盛。Anthropic 在最新一輪融資後,估值已攀升到逼近 OpenAI、約 9,650 億美元的水準,此輪融資也被列為科技業史上金額最大之一。投資人普遍預期該公司將在今年晚些時候尋求公開上市。

這次發布,也為一連串快速升級畫下最新句點;Opus 4.7 才在大約一個月前推向使用者,當時同樣伴隨著對基準測試的質疑。Anthropic 此後還預告了 Mythos,一款更強大的模型,但因網路安全顧慮而暫不向公眾開放。

接下來看: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak

免責聲明與風險警告: 本文提供的資訊僅供教育與參考用途,並基於作者觀點,不構成財務、投資、法律或稅務建議。 加密貨幣資產具有高度波動性並伴隨高風險,包括可能損失全部或大部分投資金額。買賣或持有加密資產可能並不適合所有投資者。 本文中所表達的觀點僅代表作者立場,不代表 Yellow、其創辦人或管理層的官方政策或意見。 請務必自行進行充分研究(D.Y.O.R.),並在做出任何投資決策前諮詢持牌金融專業人士。
Anthropic 稱新款 Claude Opus 4.8 能抓出自身錯誤的次數提升四倍 | Yellow.com