Anthropic released its newest model, Claude Opus 4.8,本週在智能基準測試中以些微優勢領先,但在撰寫軟件攻擊程式方面,仍落後於公司受限發佈的 Mythos 系統。
重點摘要:
- Claude Opus 4.8 以 61.4 分的成績,些微領先人工分析智能指數(Artificial Analysis Intelligence Index), 僅略高於 GPT-5.5 的 60.2 分。
- 在 Anthropic 的內部測試中,Mythos 在 70.8% 的 Firefox 目標上成功產出可運作的攻擊程式, 而 Opus 4.8 只有 8.8%。
- Mythos 僅向通過審核的 Project Glasswing 合作夥伴開放,而 Opus 4.8 則以與前一代相同的價格推出。
Opus 4.8 基準測試領先
公司本週推出 Opus 4.8,並將價格定為每百萬輸入 token 5 美元、每百萬輸出 token 25 美元,與先前的 Opus 4.7 保持同一價位。
獨立測試人員報告, 該模型目前在人工分析智能指數中以 61.4 分領先,這是一項整合十種評估的綜合指標, 略高於 GPT-5.5 的 60.2 分。Anthropic 將這次升級形容為「溫和、漸進式」的改進, 而非名稱所暗示的世代躍升。
在代理式寫碼任務上,Opus 4.8 在 SWE-bench Pro 基準測試中取得 69.2% 的成績, 該測試要求模型在大型程式庫中修復真實錯誤;而 GPT-5.5 則達到 58.6%。
在研究所層級的科學問答上,兩個系統幾乎不相上下,成績都接近 94%, 而 Opus 4.8 也在一項以廣泛推理為主的大型測驗中,些微領先其前代型號。
在最艱難的工程類工作上,Mythos 位居兩者之上:在同一個寫碼基準中取得 77.8%, 並在結合程式碼與螢幕截圖的混合任務上拉開更大差距。 Anthropic 將 Mythos 僅限於一批通過審核的合作夥伴使用, 作為其 Project Glasswing 計劃的一部分,而非公開銷售。 公司在預覽階段收費為每百萬 token 25 美元及 125 美元,約為 Opus 價格的五倍。
延伸閱讀: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Mythos 在網絡攻防上的優勢
最大的差距體現在攻擊型資安領域。
在安全防護關閉的情況下,Mythos 在 Anthropic 自家測試中, 為 70.8% 的 Firefox 目標產生了完整且可運作的攻擊程式; 相比之下,Opus 4.8 僅能在 8.8% 的目標上達成。
在另一項來自開源程式碼的測試中,Opus 4.8 在 61.5% 的目標上無法取得任何分數, 其失敗率超過 Mythos 所錄得 23.3% 的兩倍。
在由 Berkeley RDI 主導的跨模型公開測試中, 每個系統都搭配自己的寫碼代理,針對 898 個真實世界漏洞進行測試; 其中 Mythos 撰寫出 157 個可運作的攻擊程式,而 GPT-5.5 則為 120 個。
GPT-5.5 仍在核心層級(kernel-level)的攻擊上保有優勢, 在這一小塊範疇中以 22 比 12 領先 Mythos。 UK AI Security Institute 則在專家級網絡安全任務上,將 GPT-5.5 評為略高於 Mythos, 成績為 71.4% 對 68.6%。
Anthropic 在四月發表 Mythos,此前該模型曾在多個主流作業系統與各大瀏覽器中, 發現數千個先前未知的漏洞, 僅 Firefox 一款就佔了數百個。公司其後選擇不公開發售此模型, 擔心其強大的攻擊程式生成能力,會同樣被攻擊者與原本設計用來協助的防禦方所利用。
下一篇閱讀: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





