新闻学习研究排名生态系统

平台现已上线

yellow bottom left star road

OpenAI 发布 GPT-5.5，在智能体任务和 14 项基准测试上超越 Opus 4.7

Camille MeulienApr, 23 2026 19:14

#AI #OpenAI #Claude Opus

OpenAI 发布 GPT-5.5，在智能体任务和 14 项基准测试上超越 Opus 4.7

OpenAI 于 4 月 23 日发布 GPT-5.5，这款代号为「Spud」的模型被定位为其迄今在自主、多步工作方面最强的系统。

GPT-5.5 的智能体式编码推进

此次发布落地时间，恰好晚于 Anthropic 将 Claude Opus 4.7 推向全面可用一周，TechCrunch 和 Fortune 称之为在智能体工作负载上的正面交锋。

GPT-5.5 被设计为能够规划、调用工具、检查自身输出，并在无需持续提示的情况下进行迭代。

总裁 Greg Brockman 在记者电话会上称其为「一种新型智能」，并将其定位为迈向「更具智能体特性且更直观的计算」的一步。

该模型将向 ChatGPT Plus、Pro、Business 和 Enterprise 用户推出，同时上线算力更强的 Pro 版本。API 定价为：在一百万 token 上下文窗口内，输入每百万 token 5 美元，输出每百万 token 30 美元。

延伸阅读： Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

Opus 4.7 基准测试差距

按照 OpenAI 自家公布、并被 VentureBeat flagged 为在 14 项评测中达到业界领先的成绩，GPT-5.5 在 Terminal-Bench 2.0 上取得 82.7% 的得分，明显高于 Opus 4.7 的 69.4%。

在 FrontierMath 1 至 3 档中，新模型取得 51.7%，而 Anthropic 旗舰模型的成绩为 43.8%。

计算机使用能力的分数差距较小：在 OSWorld-Verified 上，GPT-5.5 得分为 78.7%，Opus 4.7 为 78.0%；但在浏览任务上，GPT-5.5 Pro 则以 90.1% 对 79.3% 明显领先。

评测者仍然认为，Opus 4.7 在研究写作、严格执行指令方面表现更强，并具备约 3.75 兆像素的更高分辨率视觉能力。

发布节奏持续加快。GPT-5.5 距离 GPT-5.4 上线仅六周。Anthropic 则是在 2 月发布 Opus 4.6 后又推出 Opus 4.7，而 Google 仍将 Gemini 3.1 Pro 锁定在同一企业级赛道。

下一篇： TRON Connects $85B USDT Network To LI.FI In Cross-Chain DeFi Push

免责声明和风险警告：本文提供的信息仅用于教育和信息目的，基于作者的意见。它不构成财务、投资、法律或税务建议。加密货币资产具有高度波动性并面临高风险，包括失去全部或大部分投资的风险。交易或持有加密资产可能不适合所有投资者。本文表达的观点仅为作者的观点，不代表Yellow、其创始人或高管的官方政策或立场。在做出任何投资决定之前，请务必进行自己的全面研究（D.Y.O.R.）并咨询持牌金融专业人士。

相关新闻

Claude Mythos 对决 GPT-5.5：受控 Anthropic 模型在 9 项测试中赢下 6 项

基准数据显示，受控发布的 Claude Mythos 在九项可比测试中赢下六项，但两家实验室测试方法不同，比较仍不精确。

OpenAI 推出 GPT-5.6，但大多数用户仍被拒之门外

GPT-5.6 先向经美国政府批准的少数可信伙伴开放，强调安全测试与分级命名，也凸显前沿 AI 正走向更严监管。

GPT-5.6 发布之际，Grok 4.5 号称以更低成本提供 AI 算力

OpenAI 扩大 GPT-5.6 推出规模，马斯克旗下 SpaceXAI 准备发布 Grok 4.5，围绕算力、成本和效率的竞争升级。

Claude Opus 4.8 在多项编码测试中超越 Gemini 和 GPT

Anthropic 推出 Claude Opus 4.8，称其在多项编码基准上领先 GPT-5.5 与 Gemini 3.1 Pro，并改进成本控制与可靠性。

GPT-5.6 对决 Grok 4.5 与 Fable 5：一周混战重绘全球 AI 版图

一周内三大前沿模型密集登场， GPT-5.6、Grok 4.5 与 Fable 5 在价格与算力表现上拉开差距，全球 AI 竞争格局随之重排。

相关研究文章

42 个州已对 OpenAI 发起调查，华尔街紧盯其 IPO

42 个州在 OpenAI 提交 8,520 亿美元估值 IPO 后迅速发起调查，聚焦 AI 安全、用户数据与非营利转制，或拖慢上市进程。

ChatGPT vs. DeepSeek: 哪种 AI 更能回答加密货币问题？

我们进行了一场实验，将 OpenAI 的 ChatGPT 和 DeepSeek 进行对比，以测试它们在简化复杂主题、联系实际趋势、提供实用见解方面的能力。

AI 赛道复苏：Bittensor 大涨 117% 能否带动板块回归？

Bittensor 带动 AI 代币单日暴涨，但整个板块在 2025 年大跌后仍低于高点一半，AI 叙事能否转为长期投资逻辑仍存疑。

AI 代币会成为继模因币之后的下一轮加密大趋势吗？

AI 代币快速追赶模因币，但智能体代币暴跌 85%。基础设施需求与机构布局支撑估值，监管与投机风险并存。

Claude Mythos 与加密货币：全新 AI 威胁对交易意味着什么

Anthropic 的 Claude Mythos 发现数千零日漏洞却因风险过高未公开，在加密行业已损失 33 亿美元背景下，加剧安全与集中化压力。

相关学习文章

为什么没有自有区块链层的 AI 代理无法实现规模化

AI 代理正实际管理资金并跨链操作，但传统为人类设计的钱包在密钥托管、Gas 机制和账户模型上都不适配机器。新一代链上基础设施正围绕代理账户、免Gas执行和意图路由重构。

去中心化 AI 正在改写谁掌控驱动 Web3 的模型话语权

去中心化 AI 把“模型当资产”，用链上所有权、激励和密码学证明，重构训练与推理市场，试图为 Web3 打造开放的 AI 基础设施。

Bittensor 运行着一家市值 26 亿美元、无人控制的 AI 市场

介绍去中心化 AI 市场 Bittensor：模型在子网中竞争获取 TAO，矿工与验证者分工协作，用户可通过质押与委托参与。

去中心化 AI 能保护你的提示隐私吗？

隐私 AI 网络通过去中心化节点执行推理，避免单一方看到完整提示与回复，并用密码学与硬件安全保障私密性与可验证性。

如何使用 AI 股票交易机器人：免费工具与真实风险

零代码平台让散户用自然语言搭建与回测策略，但多为规则引擎而非真正智能。纸上交易与小资金分阶段试错最安全。

OpenAI 发布 GPT-5.5，在智能体任务和 14 项基准测试上超越 Opus 4.7 | Yellow