OpenAI released GPT-5.5 於週三發布,但最新的基準測試數據顯示,Anthropic 的受管控 Claude Mythos Preview 在九項可直接比較的測試中,仍有六項領先。
GPT-5.5 基準測試分數
GPT-5.5 arrived 於 4 月 23 日在 ChatGPT 和 Codex 上線,定價為每百萬輸入 token 5 美元、輸出 30 美元,是前一代價格的兩倍。
該模型在 Terminal-Bench 2.0 上scored 取得 82.7% 分數,在這唯一一個明顯獲勝的基準上,以 0.7 分的差距壓過 Mythos。
Mythos, which Anthropic withheld from public release over cybersecurity concerns,在 SWE-bench Pro 上則以 77.8% 領先 GPT-5.5 的 58.6%。
它亦在 Humanity's Last Exam(無工具情境)tops 遙遙領先,得分 56.8%,相比之下 GPT-5.5 為 41.4%。這個受管控模型同時在 CyberGym、OSWorld-Verified,以及長上下文 GraphWalks 任務上佔優。
Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report
分析師提示的限制
比較結果仍然不夠精準,因為兩間實驗室都沒有直接將模型互相比對。OpenAI chose 選擇 Claude Opus 4.7 作為公開比較對象,而 Anthropic 在其 245 頁的系統卡中,則是拿 Mythos 和 GPT-5.4 對比。
測試框架亦有差異。OpenAI 在 Terminal-Bench 上使用 Codex CLI 設定,而 Anthropic 的 Terminus-2 scaffolding 則在 Terminal-Bench 2.1 的計時規則下,將 Mythos 推升至 92.1% 的成績。
Anthropic 在 4 月 7 日宣布決定對 Mythos 設置存取管控後,據報引發與歐盟委員會的會議,以及英格蘭銀行行長的警告,指該模型可能徹底撕開網絡風險防線。
Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move





