Anthropic released its newest model, Claude Opus 4.8,本週推出的新模型在智慧基準測試中以些微優勢領先,但在撰寫軟體攻擊程式方面,仍落後於公司受限使用的 Mythos 系統。
重點摘要:
- Claude Opus 4.8 以 61.4 分些微領先 Artificial Analysis Intelligence Index(人工分析智慧指數)榜首,略高於 GPT-5.5 的 60.2 分。
- 在 Anthropic 的內部測試中,Mythos 在 70.8% 的 Firefox 目標上產出可運作的攻擊程式,相較之下 Opus 4.8 僅為 8.8%。
- Mythos 仍僅限通過審核的 Project Glasswing 合作夥伴使用,而 Opus 4.8 則以與前代相同價格對外提供。
Opus 4.8 基準測試領先
公司本週推出 Opus 4.8,並訂價為每百萬輸入 token 5 美元、每百萬輸出 token 25 美元,與前一代 Opus 4.7 持平。
獨立測試者報告指出,該模型目前以 61.4 分領先 Artificial Analysis Intelligence Index,該指數綜合十項評測,略壓 GPT-5.5 的 60.2 分。Anthropic 將這次升級定位為溫和、漸進式改良,而非名稱所暗示的世代飛躍。
在代理式寫碼任務上,Opus 4.8 在 SWE-bench Pro 上拿到 69.2% 的成績。這項基準測試要求模型在大型程式碼庫中修復真實錯誤;相比之下,GPT-5.5 的成績為 58.6%。
兩套系統在研究所等級的科學題目上幾乎不分軒輊,都接近 94%;而在先前版本落後的廣泛推理測驗中,Opus 4.8 也略微領先。
在最艱難的工程任務上,Mythos 則高於兩者,在同一項寫碼基準上達到 77.8%,並在結合程式碼與螢幕截圖的任務上拉開更大差距。Anthropic 將 Mythos 限制給一小群通過審核的合作夥伴,納入其 Project Glasswing 計畫,而非對外銷售。預覽版本收費為每百萬 token 25 與 125 美元,是 Opus 費率的五倍。
延伸閱讀: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Mythos 的網路攻防優勢
最大的差距出現在進攻型資安領域。
在關閉防護機制後,Mythos 在 Anthropic 自家評估中,針對 Firefox 目標有 70.8% 的案例產出完整可運作的攻擊程式,而 Opus 4.8 僅有 8.8%。
在另一項源自開源程式碼的測試中,Opus 4.8 在 61.5% 的目標上未能得分,是 Mythos 23.3% 失敗率的兩倍多。
由 Berkeley RDI 公開進行的跨模型試驗中,每個系統都與自家寫碼代理搭配,針對 898 個真實世界漏洞進行測試;Mythos 共寫出 157 個可運作攻擊程式,而 GPT-5.5 則為 120 個。
GPT-5.5 仍在核心層級(kernel-level)攻擊上保有優勢,在這個狹窄領域中以 22 比 12 領先 Mythos。**英國 AI 安全研究院(UK AI Security Institute)**也在專家級網路資安任務上,將 GPT-5.5 評為略優於 Mythos,分數為 71.4% 對 68.6%。
Anthropic 在四月發表 Mythos,此前該模型發現數千個先前未知的漏洞,涵蓋主流作業系統及所有主要瀏覽器,其中僅 Firefox 就有數百個。公司隨後決定不向公眾開放 Mythos,因為同樣能撰寫攻擊程式的能力,既可幫助防禦者,也可能同樣利於攻擊者。
下一篇閱讀: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





