Claude Opus 4.8 智力指數登頂, Mythos 卻在駭客攻防上稱王

Claude Opus 4.8 智力指數登頂, Mythos 卻在駭客攻防上稱王

Anthropic released its newest model, Claude Opus 4.8,本週在智力基準測試上以些微優勢領先,不過在撰寫軟件攻擊程式方面,仍落後公司受限發佈的 Mythos 系統。

重點摘要:

  • Claude Opus 4.8 以 61.4 分的成績,些微領先 GPT-5.5 的 60.2 分,登上 Artificial Analysis Intelligence Index 榜首。
  • 在 Anthropic 的內部測試中,Mythos 在 70.8% 的 Firefox 目標上成功產出可運作的攻擊程式,而 Opus 4.8 僅為 8.8%。
  • Mythos 仍只開放給通過審查的 Project Glasswing 合作夥伴使用,而 Opus 4.8 則以與前代相同的價格推出。

Opus 4.8 基準測試領先

公司本週推出 Opus 4.8,並定價為每百萬輸入 token 5 美元、每百萬輸出 25 美元,與前一代 Opus 4.7 保持同一價位。

獨立測試者指出,該模型目前在 Artificial Analysis Intelligence Index 上以 61.4 分領先——這是十項評測的綜合分數——僅比 GPT-5.5 的 60.2 分略高。Anthropic 將這次升級定位為溫和、漸進的改良,而非名稱所暗示的世代飛躍。

在代理式編碼方面,Opus 4.8 在 SWE-bench Pro 上取得 69.2% 的成績。這項基準測試要求模型在大型代碼倉庫中修復真實漏洞,而 GPT-5.5 則為 58.6%。

在研究所層級的科學題目上,兩個系統幾乎打成平手,成績都接近 94%,而在廣泛的推理考試中,Opus 4.8 則以些微優勢領先以往落後的前代模型。

在最困難的工程任務上,Mythos 的表現位於兩者之上:在同一個編碼基準測試中取得 77.8%,並在涉及代碼及截圖混合任務上拉開更大的差距。Anthropic 將 Mythos 限制在 Project Glasswing 計劃下、只提供給經審查的一小部分合作夥伴,而非公開販售。該公司在預覽期間收費為每百萬 token 25 美元與 125 美元,是 Opus 價格的五倍。

延伸閱讀:Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Mythos 的網絡攻防優勢

最大的差距體現在攻擊性安全能力上。

在關閉安全防護之後,Mythos 在 Anthropic 內部評估中,於 70.8% 的 Firefox 目標上產生了完整且可運作的攻擊程式,而 Opus 4.8 只有 8.8%。

在另一項基於開源代碼的測試中,Opus 4.8 在 61.5% 的目標上完全無法得分,錯失率超過 Mythos 所交出的 23.3% 的兩倍。

Berkeley RDI 主導的一項公開跨模型試驗,讓每個系統都搭配其專屬的編碼代理,對 898 個真實世界漏洞進行測試,結果 Mythos 共寫出 157 個可運作攻擊程式,而 GPT-5.5 則為 120 個。

不過在核心層級的漏洞利用方面,GPT-5.5 仍維持領先,在這一窄小範疇中以 22 比 12 壓過 Mythos。UK AI Security Institute 亦在專家級網絡安全任務上給予 GPT-5.5 略高評價,分數為 71.4%,對比 Mythos 的 68.6%。

Anthropic 在四月發表 Mythos 時指出,該模型發現了數千個先前未知的漏洞,涵蓋多個主流作業系統及所有主要網頁瀏覽器,其中僅 Firefox 就有數百個。公司隨後選擇不將其公開發售,顧慮到其撰寫攻擊程式的能力,同樣可能被攻擊者濫用,而不只是用於協助防禦方。

下一篇閱讀:Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

免責聲明及風險提示: 本文資訊僅供教育與參考之用,並基於作者意見,並不構成金融、投資、法律或稅務建議。 加密貨幣資產具高度波動性並伴隨高風險,可能導致投資大幅虧損或全部損失,並非適合所有投資者。 文章內容僅代表作者觀點,不代表 Yellow、創辦人或管理層立場。 投資前請務必自行徹底研究(D.Y.O.R.),並諮詢持牌金融專業人士。
Claude Opus 4.8 智力指數登頂, Mythos 卻在駭客攻防上稱王 | Yellow.com