Claude Mythos 对决 GPT-5.5:受控 Anthropic 模型在 9 项测试中赢下 6 项

Claude Mythos 对决 GPT-5.5:受控 Anthropic 模型在 9 项测试中赢下 6 项

OpenAI released GPT-5.5 于周三发布,但最新的基准测试数据表明,Anthropic 的受控 Claude Mythos Preview 仍然在九项可直接比较的测试中,有六项领先。

GPT-5.5 基准测试成绩

GPT-5.5 arrived 已在 ChatGPT 和 Codex 中于 4 月 23 日上线,输入价格为每百万 token 5 美元,输出为 30 美元,是前一代模型价格的两倍。

该模型在 Terminal-Bench 2.0 上 scored 取得了 82.7% 的成绩,仅在这一项上以 0.7 分的微弱优势领先 Mythos,这是它唯一明显获胜的基准测试。

Mythos, which Anthropic withheld from public release over cybersecurity concerns,在 SWE-bench Pro 上领先,得分为 77.8%,而 GPT-5.5 为 58.6%。

它还在 Humanity's Last Exam 无工具版本上 tops 领先 GPT-5.5,得分为 56.8%,对比 GPT-5.5 的 41.4%。这个受控模型同样在 CyberGym、OSWorld-Verified 以及长上下文 GraphWalks 任务中占据优势。

Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report

分析师提示的重要性

由于两家实验室都没有直接将模型彼此对标,这一比较仍然不够精确。OpenAI chose 选择 Claude Opus 4.7 作为公开的对照模型,而 Anthropic 在 245 页的系统卡中则将 Mythos 与 GPT-5.4 进行对比。

测试框架也存在差异。OpenAI 在 Terminal-Bench 上使用的是 Codex CLI 环境,而 Anthropic 的 Terminus-2 测试脚手架则在 Terminal-Bench 2.1 计时规则下,将 Mythos 的成绩推高至 92.1%。

Anthropic 在 4 月 7 日宣布将 Mythos 置于访问门控之下,据报道,这一决定引发了与欧盟委员会的会谈,以及英格兰银行行长的警告,认为这一模型可能会打开网络风险的“潘多拉盒子”。

Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

免责声明和风险警告: 本文提供的信息仅用于教育和信息目的,基于作者的意见。它不构成财务、投资、法律或税务建议。 加密货币资产具有高度波动性并面临高风险,包括失去全部或大部分投资的风险。交易或持有加密资产可能不适合所有投资者。 本文表达的观点仅为作者的观点,不代表Yellow、其创始人或高管的官方政策或立场。 在做出任何投资决定之前,请务必进行自己的全面研究(D.Y.O.R.)并咨询持牌金融专业人士。
Claude Mythos 对决 GPT-5.5:受控 Anthropic 模型在 9 项测试中赢下 6 项 | Yellow.com