Claude Opus 4.8 位居智能指數榜首　但 Mythos 稱霸駭客攻防

Anthropic released its newest model, Claude Opus 4.8，本週在智能基準測試中以些微優勢領先，但在撰寫軟件攻擊程式方面，仍落後於公司受限發佈的 Mythos 系統。

重點摘要：

Claude Opus 4.8 以 61.4 分的成績，些微領先人工分析智能指數（Artificial Analysis Intelligence Index），僅略高於 GPT-5.5 的 60.2 分。

在 Anthropic 的內部測試中，Mythos 在 70.8% 的 Firefox 目標上成功產出可運作的攻擊程式，而 Opus 4.8 只有 8.8%。

Mythos 僅向通過審核的 Project Glasswing 合作夥伴開放，而 Opus 4.8 則以與前一代相同的價格推出。

Opus 4.8 基準測試領先

公司本週推出 Opus 4.8，並將價格定為每百萬輸入 token 5 美元、每百萬輸出 token 25 美元，與先前的 Opus 4.7 保持同一價位。

獨立測試人員報告，該模型目前在人工分析智能指數中以 61.4 分領先，這是一項整合十種評估的綜合指標，略高於 GPT-5.5 的 60.2 分。Anthropic 將這次升級形容為「溫和、漸進式」的改進，而非名稱所暗示的世代躍升。

在代理式寫碼任務上，Opus 4.8 在 SWE-bench Pro 基準測試中取得 69.2% 的成績，該測試要求模型在大型程式庫中修復真實錯誤；而 GPT-5.5 則達到 58.6%。

在研究所層級的科學問答上，兩個系統幾乎不相上下，成績都接近 94%，而 Opus 4.8 也在一項以廣泛推理為主的大型測驗中，些微領先其前代型號。

在最艱難的工程類工作上，Mythos 位居兩者之上：在同一個寫碼基準中取得 77.8%，並在結合程式碼與螢幕截圖的混合任務上拉開更大差距。 Anthropic 將 Mythos 僅限於一批通過審核的合作夥伴使用，作為其 Project Glasswing 計劃的一部分，而非公開銷售。公司在預覽階段收費為每百萬 token 25 美元及 125 美元，約為 Opus 價格的五倍。

延伸閱讀： Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Mythos 在網絡攻防上的優勢

最大的差距體現在攻擊型資安領域。

在安全防護關閉的情況下，Mythos 在 Anthropic 自家測試中，為 70.8% 的 Firefox 目標產生了完整且可運作的攻擊程式；相比之下，Opus 4.8 僅能在 8.8% 的目標上達成。

在另一項來自開源程式碼的測試中，Opus 4.8 在 61.5% 的目標上無法取得任何分數，其失敗率超過 Mythos 所錄得 23.3% 的兩倍。

在由 Berkeley RDI 主導的跨模型公開測試中，每個系統都搭配自己的寫碼代理，針對 898 個真實世界漏洞進行測試；其中 Mythos 撰寫出 157 個可運作的攻擊程式，而 GPT-5.5 則為 120 個。

GPT-5.5 仍在核心層級（kernel-level）的攻擊上保有優勢，在這一小塊範疇中以 22 比 12 領先 Mythos。 UK AI Security Institute 則在專家級網絡安全任務上，將 GPT-5.5 評為略高於 Mythos，成績為 71.4% 對 68.6%。

Anthropic 在四月發表 Mythos，此前該模型曾在多個主流作業系統與各大瀏覽器中，發現數千個先前未知的漏洞，僅 Firefox 一款就佔了數百個。公司其後選擇不公開發售此模型，擔心其強大的攻擊程式生成能力，會同樣被攻擊者與原本設計用來協助的防禦方所利用。

下一篇閱讀： Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

Claude Opus 4.8 位居智能指數榜首 但 Mythos 稱霸駭客攻防

重點摘要：

Opus 4.8 基準測試領先

Mythos 在網絡攻防上的優勢

Claude Opus 4.8 位居智能指數榜首　但 Mythos 稱霸駭客攻防