Anthropic released its newest model, Claude Opus 4.8,本週在智力基準測試上以些微優勢領先,不過在撰寫軟件攻擊程式方面,仍落後公司受限發佈的 Mythos 系統。
重點摘要:
- Claude Opus 4.8 以 61.4 分的成績,些微領先 GPT-5.5 的 60.2 分,登上 Artificial Analysis Intelligence Index 榜首。
- 在 Anthropic 的內部測試中,Mythos 在 70.8% 的 Firefox 目標上成功產出可運作的攻擊程式,而 Opus 4.8 僅為 8.8%。
- Mythos 仍只開放給通過審查的 Project Glasswing 合作夥伴使用,而 Opus 4.8 則以與前代相同的價格推出。
Opus 4.8 基準測試領先
公司本週推出 Opus 4.8,並定價為每百萬輸入 token 5 美元、每百萬輸出 25 美元,與前一代 Opus 4.7 保持同一價位。
獨立測試者指出,該模型目前在 Artificial Analysis Intelligence Index 上以 61.4 分領先——這是十項評測的綜合分數——僅比 GPT-5.5 的 60.2 分略高。Anthropic 將這次升級定位為溫和、漸進的改良,而非名稱所暗示的世代飛躍。
在代理式編碼方面,Opus 4.8 在 SWE-bench Pro 上取得 69.2% 的成績。這項基準測試要求模型在大型代碼倉庫中修復真實漏洞,而 GPT-5.5 則為 58.6%。
在研究所層級的科學題目上,兩個系統幾乎打成平手,成績都接近 94%,而在廣泛的推理考試中,Opus 4.8 則以些微優勢領先以往落後的前代模型。
在最困難的工程任務上,Mythos 的表現位於兩者之上:在同一個編碼基準測試中取得 77.8%,並在涉及代碼及截圖混合任務上拉開更大的差距。Anthropic 將 Mythos 限制在 Project Glasswing 計劃下、只提供給經審查的一小部分合作夥伴,而非公開販售。該公司在預覽期間收費為每百萬 token 25 美元與 125 美元,是 Opus 價格的五倍。
延伸閱讀:Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Mythos 的網絡攻防優勢
最大的差距體現在攻擊性安全能力上。
在關閉安全防護之後,Mythos 在 Anthropic 內部評估中,於 70.8% 的 Firefox 目標上產生了完整且可運作的攻擊程式,而 Opus 4.8 只有 8.8%。
在另一項基於開源代碼的測試中,Opus 4.8 在 61.5% 的目標上完全無法得分,錯失率超過 Mythos 所交出的 23.3% 的兩倍。
由 Berkeley RDI 主導的一項公開跨模型試驗,讓每個系統都搭配其專屬的編碼代理,對 898 個真實世界漏洞進行測試,結果 Mythos 共寫出 157 個可運作攻擊程式,而 GPT-5.5 則為 120 個。
不過在核心層級的漏洞利用方面,GPT-5.5 仍維持領先,在這一窄小範疇中以 22 比 12 壓過 Mythos。UK AI Security Institute 亦在專家級網絡安全任務上給予 GPT-5.5 略高評價,分數為 71.4%,對比 Mythos 的 68.6%。
Anthropic 在四月發表 Mythos 時指出,該模型發現了數千個先前未知的漏洞,涵蓋多個主流作業系統及所有主要網頁瀏覽器,其中僅 Firefox 就有數百個。公司隨後選擇不將其公開發售,顧慮到其撰寫攻擊程式的能力,同樣可能被攻擊者濫用,而不只是用於協助防禦方。
下一篇閱讀:Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





