Claude Opus 4.8 在智慧指數奪冠,卻被 Mythos 程式駭攻能力壓制

Claude Opus 4.8 在智慧指數奪冠,卻被 Mythos 程式駭攻能力壓制

Anthropic released its newest model, Claude Opus 4.8, 本週推出,並在智慧基準測試中以些微優勢領先,但在撰寫軟體攻擊程式方面,卻落後於公司受限使用的 Mythos 系統。

重點摘要:

  • Claude Opus 4.8 以 61.4 分,些微領先人工分析智慧指數(Artificial Analysis Intelligence Index),略高於 GPT-5.5 的 60.2 分。
  • 在 Anthropic 的內部測試中,Mythos 對 Firefox 目標的有效攻擊程式命中率達 70.8%,而 Opus 4.8 僅有 8.8%。
  • Mythos 僅提供給通過審核的 Project Glasswing 夥伴使用,而 Opus 4.8 則以與前一代相同的價格推出。

Opus 4.8 基準測試領先

公司本週正式推出 Opus 4.8,並定價為每一百萬輸入 token 5 美元、每一百萬輸出 25 美元,與上一代 Opus 4.7 的費率維持一致。

獨立測試者回報,該模型現在以 61.4 分領先人工分析智慧指數,這是一項綜合十個評估指標的總分,僅略高於 GPT-5.5 的 60.2 分。Anthropic 將這次升級定位為中度、漸進式的改進,而非從名稱所暗示的世代飛躍。

在代理型寫程式能力上,Opus 4.8 在 SWE-bench Pro 上取得 69.2% 的成績。該基準測試要求模型在大型程式碼庫中修復真實錯誤;GPT-5.5 則達到 58.6%。

在研究所層級的科學題目上,兩個系統幾乎打成平手,都接近 94%,而且在前幾代落後的廣泛推理測驗中,Opus 4.8 也以些微差距領先。

在最困難的工程任務上,Mythos 仍位居兩者之上:在同一個程式基準測試中,它交出 77.8% 的成績,並且在結合程式碼與螢幕截圖的任務上拉開更大差距。Anthropic 將 Mythos 使用權限限制在其 Project Glasswing 計畫下、經審核的一小群合作夥伴,而非公開販售。它在預覽期收費為每一百萬 token 輸入 25 美元、輸出 125 美元,約為 Opus 的五倍。

延伸閱讀: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Mythos 在網路攻防上的主導地位

最大的差距出現在攻擊性資安領域。

在關閉安全防護後,Mythos 在 Anthropic 自家評估中,對 Firefox 目標產生完整可運作攻擊程式的比例高達 70.8%,而 Opus 4.8 只達到 8.8%。

在另一項來自開源程式碼的測試中,Opus 4.8 對 61.5% 的目標完全無法得分,錯失率超過 Mythos 的兩倍,而後者僅有 23.3% 的失敗率。

Berkeley RDI 發起的一項跨模型公開測試,讓每個系統搭配其自家寫程式代理,針對 898 個真實世界的漏洞進行測試;結果顯示,Mythos 成功撰寫 157 個可運作攻擊程式,而 GPT-5.5 則為 120 個。

在核心層級(kernel-level)的攻擊上,GPT-5.5 仍略佔上風,在這個狹窄範疇中以 22 比 12 領先 Mythos。**英國 AI Security Institute(英國 AI 安全研究所)**也在專家級網路攻防任務上,將 GPT-5.5 評為略優於 Mythos,分數為 71.4% 比 68.6%。

Anthropic 於四月發表 Mythos,此前該模型在各大作業系統與所有主流瀏覽器中,發現了數千個先前未知的漏洞,其中僅 Firefox 就有數百個。公司隨後決定不對大眾釋出這款模型,擔心其強大的攻擊程式撰寫能力,會同時被攻擊者與它原本要協助的防禦方所利用。

下一篇閱讀: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

免責聲明與風險警告: 本文提供的資訊僅供教育與參考用途,並基於作者觀點,不構成財務、投資、法律或稅務建議。 加密貨幣資產具有高度波動性並伴隨高風險,包括可能損失全部或大部分投資金額。買賣或持有加密資產可能並不適合所有投資者。 本文中所表達的觀點僅代表作者立場,不代表 Yellow、其創辦人或管理層的官方政策或意見。 請務必自行進行充分研究(D.Y.O.R.),並在做出任何投資決策前諮詢持牌金融專業人士。