Claude Mythos 對決 GPT-5.5:受管控 Anthropic 模型在 9 項測試中贏 6 項

Claude Mythos 對決 GPT-5.5:受管控 Anthropic 模型在 9 項測試中贏 6 項

OpenAI released GPT-5.5 於週三發布,但最新的基準測試數據顯示,Anthropic 的受管控 Claude Mythos Preview 在九項可直接比較的測試中,仍有六項領先。

GPT-5.5 基準測試分數

GPT-5.5 arrived 於 4 月 23 日在 ChatGPT 和 Codex 上線,定價為每百萬輸入 token 5 美元、輸出 30 美元,是前一代價格的兩倍。

該模型在 Terminal-Bench 2.0 上scored 取得 82.7% 分數,在這唯一一個明顯獲勝的基準上,以 0.7 分的差距壓過 Mythos。

Mythos, which Anthropic withheld from public release over cybersecurity concerns,在 SWE-bench Pro 上則以 77.8% 領先 GPT-5.5 的 58.6%。

它亦在 Humanity's Last Exam(無工具情境)tops 遙遙領先,得分 56.8%,相比之下 GPT-5.5 為 41.4%。這個受管控模型同時在 CyberGym、OSWorld-Verified,以及長上下文 GraphWalks 任務上佔優。

Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report

分析師提示的限制

比較結果仍然不夠精準,因為兩間實驗室都沒有直接將模型互相比對。OpenAI chose 選擇 Claude Opus 4.7 作為公開比較對象,而 Anthropic 在其 245 頁的系統卡中,則是拿 Mythos 和 GPT-5.4 對比。

測試框架亦有差異。OpenAI 在 Terminal-Bench 上使用 Codex CLI 設定,而 Anthropic 的 Terminus-2 scaffolding 則在 Terminal-Bench 2.1 的計時規則下,將 Mythos 推升至 92.1% 的成績。

Anthropic 在 4 月 7 日宣布決定對 Mythos 設置存取管控後,據報引發與歐盟委員會的會議,以及英格蘭銀行行長的警告,指該模型可能徹底撕開網絡風險防線。

Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

免責聲明及風險提示: 本文資訊僅供教育與參考之用,並基於作者意見,並不構成金融、投資、法律或稅務建議。 加密貨幣資產具高度波動性並伴隨高風險,可能導致投資大幅虧損或全部損失,並非適合所有投資者。 文章內容僅代表作者觀點,不代表 Yellow、創辦人或管理層立場。 投資前請務必自行徹底研究(D.Y.O.R.),並諮詢持牌金融專業人士。
Claude Mythos 對決 GPT-5.5:受管控 Anthropic 模型在 9 項測試中贏 6 項 | Yellow.com