Claude Opus 4.8 在智慧指數奪冠，卻被 Mythos 程式駭攻能力壓制

Anthropic released its newest model, Claude Opus 4.8, 本週推出，並在智慧基準測試中以些微優勢領先，但在撰寫軟體攻擊程式方面，卻落後於公司受限使用的 Mythos 系統。

重點摘要：

Claude Opus 4.8 以 61.4 分，些微領先人工分析智慧指數（Artificial Analysis Intelligence Index），略高於 GPT-5.5 的 60.2 分。

在 Anthropic 的內部測試中，Mythos 對 Firefox 目標的有效攻擊程式命中率達 70.8%，而 Opus 4.8 僅有 8.8%。

Mythos 僅提供給通過審核的 Project Glasswing 夥伴使用，而 Opus 4.8 則以與前一代相同的價格推出。

Opus 4.8 基準測試領先

公司本週正式推出 Opus 4.8，並定價為每一百萬輸入 token 5 美元、每一百萬輸出 25 美元，與上一代 Opus 4.7 的費率維持一致。

獨立測試者回報，該模型現在以 61.4 分領先人工分析智慧指數，這是一項綜合十個評估指標的總分，僅略高於 GPT-5.5 的 60.2 分。Anthropic 將這次升級定位為中度、漸進式的改進，而非從名稱所暗示的世代飛躍。

在代理型寫程式能力上，Opus 4.8 在 SWE-bench Pro 上取得 69.2% 的成績。該基準測試要求模型在大型程式碼庫中修復真實錯誤；GPT-5.5 則達到 58.6%。

在研究所層級的科學題目上，兩個系統幾乎打成平手，都接近 94%，而且在前幾代落後的廣泛推理測驗中，Opus 4.8 也以些微差距領先。

在最困難的工程任務上，Mythos 仍位居兩者之上：在同一個程式基準測試中，它交出 77.8% 的成績，並且在結合程式碼與螢幕截圖的任務上拉開更大差距。Anthropic 將 Mythos 使用權限限制在其 Project Glasswing 計畫下、經審核的一小群合作夥伴，而非公開販售。它在預覽期收費為每一百萬 token 輸入 25 美元、輸出 125 美元，約為 Opus 的五倍。

延伸閱讀： Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Mythos 在網路攻防上的主導地位

最大的差距出現在攻擊性資安領域。

在關閉安全防護後，Mythos 在 Anthropic 自家評估中，對 Firefox 目標產生完整可運作攻擊程式的比例高達 70.8%，而 Opus 4.8 只達到 8.8%。

在另一項來自開源程式碼的測試中，Opus 4.8 對 61.5% 的目標完全無法得分，錯失率超過 Mythos 的兩倍，而後者僅有 23.3% 的失敗率。

由 Berkeley RDI 發起的一項跨模型公開測試，讓每個系統搭配其自家寫程式代理，針對 898 個真實世界的漏洞進行測試；結果顯示，Mythos 成功撰寫 157 個可運作攻擊程式，而 GPT-5.5 則為 120 個。

在核心層級（kernel-level）的攻擊上，GPT-5.5 仍略佔上風，在這個狹窄範疇中以 22 比 12 領先 Mythos。**英國 AI Security Institute（英國 AI 安全研究所）**也在專家級網路攻防任務上，將 GPT-5.5 評為略優於 Mythos，分數為 71.4% 比 68.6%。

Anthropic 於四月發表 Mythos，此前該模型在各大作業系統與所有主流瀏覽器中，發現了數千個先前未知的漏洞，其中僅 Firefox 就有數百個。公司隨後決定不對大眾釋出這款模型，擔心其強大的攻擊程式撰寫能力，會同時被攻擊者與它原本要協助的防禦方所利用。

下一篇閱讀： Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears