Anthropic released its newest model, Claude Opus 4.8, 本週推出,並在智慧基準測試中以些微優勢領先,但在撰寫軟體攻擊程式方面,卻落後於公司受限使用的 Mythos 系統。
重點摘要:
- Claude Opus 4.8 以 61.4 分,些微領先人工分析智慧指數(Artificial Analysis Intelligence Index),略高於 GPT-5.5 的 60.2 分。
- 在 Anthropic 的內部測試中,Mythos 對 Firefox 目標的有效攻擊程式命中率達 70.8%,而 Opus 4.8 僅有 8.8%。
- Mythos 僅提供給通過審核的 Project Glasswing 夥伴使用,而 Opus 4.8 則以與前一代相同的價格推出。
Opus 4.8 基準測試領先
公司本週正式推出 Opus 4.8,並定價為每一百萬輸入 token 5 美元、每一百萬輸出 25 美元,與上一代 Opus 4.7 的費率維持一致。
獨立測試者回報,該模型現在以 61.4 分領先人工分析智慧指數,這是一項綜合十個評估指標的總分,僅略高於 GPT-5.5 的 60.2 分。Anthropic 將這次升級定位為中度、漸進式的改進,而非從名稱所暗示的世代飛躍。
在代理型寫程式能力上,Opus 4.8 在 SWE-bench Pro 上取得 69.2% 的成績。該基準測試要求模型在大型程式碼庫中修復真實錯誤;GPT-5.5 則達到 58.6%。
在研究所層級的科學題目上,兩個系統幾乎打成平手,都接近 94%,而且在前幾代落後的廣泛推理測驗中,Opus 4.8 也以些微差距領先。
在最困難的工程任務上,Mythos 仍位居兩者之上:在同一個程式基準測試中,它交出 77.8% 的成績,並且在結合程式碼與螢幕截圖的任務上拉開更大差距。Anthropic 將 Mythos 使用權限限制在其 Project Glasswing 計畫下、經審核的一小群合作夥伴,而非公開販售。它在預覽期收費為每一百萬 token 輸入 25 美元、輸出 125 美元,約為 Opus 的五倍。
延伸閱讀: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Mythos 在網路攻防上的主導地位
最大的差距出現在攻擊性資安領域。
在關閉安全防護後,Mythos 在 Anthropic 自家評估中,對 Firefox 目標產生完整可運作攻擊程式的比例高達 70.8%,而 Opus 4.8 只達到 8.8%。
在另一項來自開源程式碼的測試中,Opus 4.8 對 61.5% 的目標完全無法得分,錯失率超過 Mythos 的兩倍,而後者僅有 23.3% 的失敗率。
由 Berkeley RDI 發起的一項跨模型公開測試,讓每個系統搭配其自家寫程式代理,針對 898 個真實世界的漏洞進行測試;結果顯示,Mythos 成功撰寫 157 個可運作攻擊程式,而 GPT-5.5 則為 120 個。
在核心層級(kernel-level)的攻擊上,GPT-5.5 仍略佔上風,在這個狹窄範疇中以 22 比 12 領先 Mythos。**英國 AI Security Institute(英國 AI 安全研究所)**也在專家級網路攻防任務上,將 GPT-5.5 評為略優於 Mythos,分數為 71.4% 比 68.6%。
Anthropic 於四月發表 Mythos,此前該模型在各大作業系統與所有主流瀏覽器中,發現了數千個先前未知的漏洞,其中僅 Firefox 就有數百個。公司隨後決定不對大眾釋出這款模型,擔心其強大的攻擊程式撰寫能力,會同時被攻擊者與它原本要協助的防禦方所利用。
下一篇閱讀: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





