Claude Opus 4.8 智能指數奪冠,卻在駭客能力上不及 Mythos

Claude Opus 4.8 智能指數奪冠,卻在駭客能力上不及 Mythos

Anthropic released its newest model, Claude Opus 4.8,本週推出的新模型在智慧基準測試中以些微優勢領先,但在撰寫軟體攻擊程式方面,仍落後於公司受限使用的 Mythos 系統。

重點摘要:

  • Claude Opus 4.8 以 61.4 分些微領先 Artificial Analysis Intelligence Index(人工分析智慧指數)榜首,略高於 GPT-5.5 的 60.2 分。
  • 在 Anthropic 的內部測試中,Mythos 在 70.8% 的 Firefox 目標上產出可運作的攻擊程式,相較之下 Opus 4.8 僅為 8.8%。
  • Mythos 仍僅限通過審核的 Project Glasswing 合作夥伴使用,而 Opus 4.8 則以與前代相同價格對外提供。

Opus 4.8 基準測試領先

公司本週推出 Opus 4.8,並訂價為每百萬輸入 token 5 美元、每百萬輸出 token 25 美元,與前一代 Opus 4.7 持平。

獨立測試者報告指出,該模型目前以 61.4 分領先 Artificial Analysis Intelligence Index,該指數綜合十項評測,略壓 GPT-5.5 的 60.2 分。Anthropic 將這次升級定位為溫和、漸進式改良,而非名稱所暗示的世代飛躍。

在代理式寫碼任務上,Opus 4.8 在 SWE-bench Pro 上拿到 69.2% 的成績。這項基準測試要求模型在大型程式碼庫中修復真實錯誤;相比之下,GPT-5.5 的成績為 58.6%。

兩套系統在研究所等級的科學題目上幾乎不分軒輊,都接近 94%;而在先前版本落後的廣泛推理測驗中,Opus 4.8 也略微領先。

在最艱難的工程任務上,Mythos 則高於兩者,在同一項寫碼基準上達到 77.8%,並在結合程式碼與螢幕截圖的任務上拉開更大差距。Anthropic 將 Mythos 限制給一小群通過審核的合作夥伴,納入其 Project Glasswing 計畫,而非對外銷售。預覽版本收費為每百萬 token 25 與 125 美元,是 Opus 費率的五倍。

延伸閱讀: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Mythos 的網路攻防優勢

最大的差距出現在進攻型資安領域。

在關閉防護機制後,Mythos 在 Anthropic 自家評估中,針對 Firefox 目標有 70.8% 的案例產出完整可運作的攻擊程式,而 Opus 4.8 僅有 8.8%。

在另一項源自開源程式碼的測試中,Opus 4.8 在 61.5% 的目標上未能得分,是 Mythos 23.3% 失敗率的兩倍多。

Berkeley RDI 公開進行的跨模型試驗中,每個系統都與自家寫碼代理搭配,針對 898 個真實世界漏洞進行測試;Mythos 共寫出 157 個可運作攻擊程式,而 GPT-5.5 則為 120 個。

GPT-5.5 仍在核心層級(kernel-level)攻擊上保有優勢,在這個狹窄領域中以 22 比 12 領先 Mythos。**英國 AI 安全研究院(UK AI Security Institute)**也在專家級網路資安任務上,將 GPT-5.5 評為略優於 Mythos,分數為 71.4% 對 68.6%。

Anthropic 在四月發表 Mythos,此前該模型發現數千個先前未知的漏洞,涵蓋主流作業系統及所有主要瀏覽器,其中僅 Firefox 就有數百個。公司隨後決定不向公眾開放 Mythos,因為同樣能撰寫攻擊程式的能力,既可幫助防禦者,也可能同樣利於攻擊者。

下一篇閱讀: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

免責聲明與風險警告: 本文提供的資訊僅供教育與參考用途,並基於作者觀點,不構成財務、投資、法律或稅務建議。 加密貨幣資產具有高度波動性並伴隨高風險,包括可能損失全部或大部分投資金額。買賣或持有加密資產可能並不適合所有投資者。 本文中所表達的觀點僅代表作者立場,不代表 Yellow、其創辦人或管理層的官方政策或意見。 請務必自行進行充分研究(D.Y.O.R.),並在做出任何投資決策前諮詢持牌金融專業人士。
Claude Opus 4.8 智能指數奪冠,卻在駭客能力上不及 Mythos | Yellow.com