新闻学习研究排名生态系统

平台现已上线

yellow bottom left star road

Claude Mythos 对决 GPT-5.5：受控 Anthropic 模型在 9 项测试中赢下 6 项

Alexey BondarevApr, 24 2026 5:36

#AI #OpenAI #ChatGPT #Anthropic #Claude Mythos

Claude Mythos 对决 GPT-5.5：受控 Anthropic 模型在 9 项测试中赢下 6 项

OpenAI released GPT-5.5 于周三发布，但最新的基准测试数据表明，Anthropic 的受控 Claude Mythos Preview 仍然在九项可直接比较的测试中，有六项领先。

GPT-5.5 基准测试成绩

GPT-5.5 arrived 已在 ChatGPT 和 Codex 中于 4 月 23 日上线，输入价格为每百万 token 5 美元，输出为 30 美元，是前一代模型价格的两倍。

该模型在 Terminal-Bench 2.0 上 scored 取得了 82.7% 的成绩，仅在这一项上以 0.7 分的微弱优势领先 Mythos，这是它唯一明显获胜的基准测试。

Mythos, which Anthropic withheld from public release over cybersecurity concerns，在 SWE-bench Pro 上领先，得分为 77.8%，而 GPT-5.5 为 58.6%。

它还在 Humanity's Last Exam 无工具版本上 tops 领先 GPT-5.5，得分为 56.8%，对比 GPT-5.5 的 41.4%。这个受控模型同样在 CyberGym、OSWorld-Verified 以及长上下文 GraphWalks 任务中占据优势。

Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report

分析师提示的重要性

由于两家实验室都没有直接将模型彼此对标，这一比较仍然不够精确。OpenAI chose 选择 Claude Opus 4.7 作为公开的对照模型，而 Anthropic 在 245 页的系统卡中则将 Mythos 与 GPT-5.4 进行对比。

测试框架也存在差异。OpenAI 在 Terminal-Bench 上使用的是 Codex CLI 环境，而 Anthropic 的 Terminus-2 测试脚手架则在 Terminal-Bench 2.1 计时规则下，将 Mythos 的成绩推高至 92.1%。

Anthropic 在 4 月 7 日宣布将 Mythos 置于访问门控之下，据报道，这一决定引发了与欧盟委员会的会谈，以及英格兰银行行长的警告，认为这一模型可能会打开网络风险的“潘多拉盒子”。

Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

免责声明和风险警告：本文提供的信息仅用于教育和信息目的，基于作者的意见。它不构成财务、投资、法律或税务建议。加密货币资产具有高度波动性并面临高风险，包括失去全部或大部分投资的风险。交易或持有加密资产可能不适合所有投资者。本文表达的观点仅为作者的观点，不代表Yellow、其创始人或高管的官方政策或立场。在做出任何投资决定之前，请务必进行自己的全面研究（D.Y.O.R.）并咨询持牌金融专业人士。

最新新闻

查看所有新闻

Trezor反驳ZachXBT：硬件钱包并非“一文不值”

ZachXBT称硬件钱包“完全垃圾”，建议改用专用iPhone。Trezor高管力证硬件钱包仍是普通投资者最稳自托管方案，Roman Storm则督促移动钱包补齐BIP39口令与隔空签名功能。

预测市场提前“弃票”：罗德里格斯退选威州州长后，胜算已被砍到5%

威州副州长罗德里格斯因竞选财报虚报大额捐款退选州长，预测市场早已将其胜算砍至约5%，实时反映“爆雷”风险。

苹果市值达4.88万亿美元反超英伟达领先优势极其脆弱或随时反转

苹果以4.88万亿美元市值险胜英伟达，但差距微乎其微。资金从纯AI基础设施转向服务、终端与盈利更确定的科技龙头。

相关新闻

Claude Opus 4.8 在多项编码测试中超越 Gemini 和 GPT

Anthropic 推出 Claude Opus 4.8，称其在多项编码基准上领先 GPT-5.5 与 Gemini 3.1 Pro，并改进成本控制与可靠性。

Claude Opus 4.8 登顶智能指数，Mythos 却在黑客能力上更胜一筹

Anthropic 推出 Claude Opus 4.8，在智能基准上小幅领先 GPT-5.5，但在编写漏洞利用上远逊于仅向特定伙伴开放的 Mythos。

OpenAI 发布 GPT-5.5，在智能体任务和 14 项基准测试上超越 Opus 4.7

OpenAI 发布 GPT-5.5，主打智能体编码和多步自主工作，在 Terminal-Bench 2.0 等 14 项评测中整体领先 Claude Opus 4.7。

Anthropic 将 Claude Mythos 5 定价为每百万 tokens 10 美元，称其为有史以来最强大的模型

Anthropic 推出 Claude Mythos 5，主打网络安全能力，只向 Glasswing 与美国政府防御方开放，公共版 Fable 5 将高风险请求路由到 Opus 4.8。

GPT-5.6 Sol 与 Claude Fable 5：编程跑分显示双寡头分庭抗礼

多份新测评对比 GPT-5.6 Sol 与 Claude Fable 5：Sol 在 Terminal-Bench 领先且更便宜，Fable 5 则在 SWE-Bench Pro 与全球可用性上占优。

相关研究文章

Claude Mythos 与加密货币：全新 AI 威胁对交易意味着什么

Anthropic 的 Claude Mythos 发现数千零日漏洞却因风险过高未公开，在加密行业已损失 33 亿美元背景下，加剧安全与集中化压力。

Claude Mythos 将如何重塑金融与加密行业

Anthropic 的前沿模型 Claude Mythos 通过 Project Glasswing 限制性开放，凸显其在发现高危漏洞上的能力，对银行及加密基础设施安全和市场稳定构成深远影响。

42 个州已对 OpenAI 发起调查，华尔街紧盯其 IPO

42 个州在 OpenAI 提交 8,520 亿美元估值 IPO 后迅速发起调查，聚焦 AI 安全、用户数据与非营利转制，或拖慢上市进程。

AI 赛道复苏：Bittensor 大涨 117% 能否带动板块回归？

Bittensor 带动 AI 代币单日暴涨，但整个板块在 2025 年大跌后仍低于高点一半，AI 叙事能否转为长期投资逻辑仍存疑。

ChatGPT vs. DeepSeek: 哪种 AI 更能回答加密货币问题？

我们进行了一场实验，将 OpenAI 的 ChatGPT 和 DeepSeek 进行对比，以测试它们在简化复杂主题、联系实际趋势、提供实用见解方面的能力。

相关学习文章

为什么没有自有区块链层的 AI 代理无法实现规模化

AI 代理正实际管理资金并跨链操作，但传统为人类设计的钱包在密钥托管、Gas 机制和账户模型上都不适配机器。新一代链上基础设施正围绕代理账户、免Gas执行和意图路由重构。

Bittensor 运行着一家市值 26 亿美元、无人控制的 AI 市场

介绍去中心化 AI 市场 Bittensor：模型在子网中竞争获取 TAO，矿工与验证者分工协作，用户可通过质押与委托参与。

如何使用 AI 股票交易机器人：免费工具与真实风险

零代码平台让散户用自然语言搭建与回测策略，但多为规则引擎而非真正智能。纸上交易与小资金分阶段试错最安全。

为什么 MegaETH 处理区块比大多数应用刷新还快

解析 MegaETH 如何通过实时 EVM、异构节点和以太坊结算，实现亚毫秒区块和高吞吐，并为链上应用打开新场景。

去中心化 AI 能保护你的提示隐私吗？

隐私 AI 网络通过去中心化节点执行推理，避免单一方看到完整提示与回复，并用密码学与硬件安全保障私密性与可验证性。

Claude Mythos 对决 GPT-5.5：受控 Anthropic 模型在 9 项测试中赢下 6 项 | Yellow