OpenAI released GPT-5.5 于周三发布,但最新的基准测试数据表明,Anthropic 的受控 Claude Mythos Preview 仍然在九项可直接比较的测试中,有六项领先。
GPT-5.5 基准测试成绩
GPT-5.5 arrived 已在 ChatGPT 和 Codex 中于 4 月 23 日上线,输入价格为每百万 token 5 美元,输出为 30 美元,是前一代模型价格的两倍。
该模型在 Terminal-Bench 2.0 上 scored 取得了 82.7% 的成绩,仅在这一项上以 0.7 分的微弱优势领先 Mythos,这是它唯一明显获胜的基准测试。
Mythos, which Anthropic withheld from public release over cybersecurity concerns,在 SWE-bench Pro 上领先,得分为 77.8%,而 GPT-5.5 为 58.6%。
它还在 Humanity's Last Exam 无工具版本上 tops 领先 GPT-5.5,得分为 56.8%,对比 GPT-5.5 的 41.4%。这个受控模型同样在 CyberGym、OSWorld-Verified 以及长上下文 GraphWalks 任务中占据优势。
Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report
分析师提示的重要性
由于两家实验室都没有直接将模型彼此对标,这一比较仍然不够精确。OpenAI chose 选择 Claude Opus 4.7 作为公开的对照模型,而 Anthropic 在 245 页的系统卡中则将 Mythos 与 GPT-5.4 进行对比。
测试框架也存在差异。OpenAI 在 Terminal-Bench 上使用的是 Codex CLI 环境,而 Anthropic 的 Terminus-2 测试脚手架则在 Terminal-Bench 2.1 计时规则下,将 Mythos 的成绩推高至 92.1%。
Anthropic 在 4 月 7 日宣布将 Mythos 置于访问门控之下,据报道,这一决定引发了与欧盟委员会的会谈,以及英格兰银行行长的警告,认为这一模型可能会打开网络风险的“潘多拉盒子”。
Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move






