OpenAI released GPT-5.5 於週三發佈,不過最新基準數據顯示,Anthropic 的受管控 Claude Mythos Preview 仍在 9 個可直接比較的測試中領先 6 項。
GPT-5.5 基準分數
GPT-5.5 arrived 已在 4 月 23 日登陸 ChatGPT 與 Codex,定價為每百萬輸入 Token 5 美元、輸出 30 美元,費率是前一代的兩倍。
該模型在 Terminal-Bench 2.0 上scored 82.7%,僅在這一項明顯獲勝的基準上,以 0.7 個百分點小勝 Mythos。
Mythos, which Anthropic withheld from public release over cybersecurity concerns,在 SWE-bench Pro 的表現為 77.8%,明顯領先 GPT-5.5 的 58.6%。
它在 Humanity's Last Exam(無工具版本)上也tops 遙遙領先 GPT-5.5,得分 56.8%,對比 GPT-5.5 的 41.4%。這款受限模型在 CyberGym、OSWorld-Verified 以及長上下文 GraphWalks 任務上同樣領先。
Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report
分析師提醒的注意事項
這次比較仍不精確,因為兩家實驗室都沒有直接將模型互相比對。OpenAI chose 將 Claude Opus 4.7 作為公開比較對象,而 Anthropic 在其 245 頁的系統卡中,是拿 Mythos 對比 GPT-5.4。
測試框架也不一致。OpenAI 在 Terminal-Bench 上採用了 Codex CLI 設定,而 Anthropic 的 Terminus-2 腳手架,則在 Terminal-Bench 2.1 的計時規則下,將 Mythos 推升到 92.1% 的成績。
Anthropic 在 4 月 7 日宣佈對 Mythos 設置門檻的決定,被指引發了與歐洲委員會的會議,以及英格蘭銀行總裁的警告,認為該模型可能徹底打開網路風險的缺口。
Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move






