Claude Mythos 對決 GPT-5.5:受限 Anthropic 模型在 9 項測試中贏下 6 項

Claude Mythos 對決 GPT-5.5:受限 Anthropic 模型在 9 項測試中贏下 6 項

OpenAI released GPT-5.5 於週三發佈,不過最新基準數據顯示,Anthropic 的受管控 Claude Mythos Preview 仍在 9 個可直接比較的測試中領先 6 項。

GPT-5.5 基準分數

GPT-5.5 arrived 已在 4 月 23 日登陸 ChatGPT 與 Codex,定價為每百萬輸入 Token 5 美元、輸出 30 美元,費率是前一代的兩倍。

該模型在 Terminal-Bench 2.0 上scored 82.7%,僅在這一項明顯獲勝的基準上,以 0.7 個百分點小勝 Mythos。

Mythos, which Anthropic withheld from public release over cybersecurity concerns,在 SWE-bench Pro 的表現為 77.8%,明顯領先 GPT-5.5 的 58.6%。

它在 Humanity's Last Exam(無工具版本)上也tops 遙遙領先 GPT-5.5,得分 56.8%,對比 GPT-5.5 的 41.4%。這款受限模型在 CyberGym、OSWorld-Verified 以及長上下文 GraphWalks 任務上同樣領先。

Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report

分析師提醒的注意事項

這次比較仍不精確,因為兩家實驗室都沒有直接將模型互相比對。OpenAI chose 將 Claude Opus 4.7 作為公開比較對象,而 Anthropic 在其 245 頁的系統卡中,是拿 Mythos 對比 GPT-5.4。

測試框架也不一致。OpenAI 在 Terminal-Bench 上採用了 Codex CLI 設定,而 Anthropic 的 Terminus-2 腳手架,則在 Terminal-Bench 2.1 的計時規則下,將 Mythos 推升到 92.1% 的成績。

Anthropic 在 4 月 7 日宣佈對 Mythos 設置門檻的決定,被指引發了與歐洲委員會的會議,以及英格蘭銀行總裁的警告,認為該模型可能徹底打開網路風險的缺口。

Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

免責聲明與風險警告: 本文提供的資訊僅供教育與參考用途,並基於作者觀點,不構成財務、投資、法律或稅務建議。 加密貨幣資產具有高度波動性並伴隨高風險,包括可能損失全部或大部分投資金額。買賣或持有加密資產可能並不適合所有投資者。 本文中所表達的觀點僅代表作者立場,不代表 Yellow、其創辦人或管理層的官方政策或意見。 請務必自行進行充分研究(D.Y.O.R.),並在做出任何投資決策前諮詢持牌金融專業人士。