OpenAI 发布 GPT-5.5,在智能体任务和 14 项基准测试上超越 Opus 4.7

Camille MeulienApr, 23 2026 19:14
OpenAI 发布 GPT-5.5,在智能体任务和 14 项基准测试上超越 Opus 4.7

OpenAI 于 4 月 23 日发布 GPT-5.5,这款代号为「Spud」的模型被定位为其迄今在自主、多步工作方面最强的系统。

GPT-5.5 的智能体式编码推进

此次发布落地时间,恰好晚于 AnthropicClaude Opus 4.7 推向全面可用一周,TechCrunchFortune 称之为在智能体工作负载上的正面交锋。

GPT-5.5 被设计为能够规划、调用工具、检查自身输出,并在无需持续提示的情况下进行迭代。

总裁 Greg Brockman 在记者电话会上称其为「一种新型智能」,并将其定位为迈向「更具智能体特性且更直观的计算」的一步。

该模型将向 ChatGPT Plus、Pro、Business 和 Enterprise 用户推出,同时上线算力更强的 Pro 版本。API 定价为:在一百万 token 上下文窗口内,输入每百万 token 5 美元,输出每百万 token 30 美元。

延伸阅读: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

Opus 4.7 基准测试差距

按照 OpenAI 自家公布、并被 VentureBeat flagged 为在 14 项评测中达到业界领先的成绩,GPT-5.5 在 Terminal-Bench 2.0 上取得 82.7% 的得分,明显高于 Opus 4.7 的 69.4%。

在 FrontierMath 1 至 3 档中,新模型取得 51.7%,而 Anthropic 旗舰模型的成绩为 43.8%。

计算机使用能力的分数差距较小:在 OSWorld-Verified 上,GPT-5.5 得分为 78.7%,Opus 4.7 为 78.0%;但在浏览任务上,GPT-5.5 Pro 则以 90.1% 对 79.3% 明显领先。

评测者仍然认为,Opus 4.7 在研究写作、严格执行指令方面表现更强,并具备约 3.75 兆像素的更高分辨率视觉能力。

发布节奏持续加快。GPT-5.5 距离 GPT-5.4 上线仅六周。Anthropic 则是在 2 月发布 Opus 4.6 后又推出 Opus 4.7,而 Google 仍将 Gemini 3.1 Pro 锁定在同一企业级赛道。

下一篇: TRON Connects $85B USDT Network To LI.FI In Cross-Chain DeFi Push

免责声明和风险警告: 本文提供的信息仅用于教育和信息目的,基于作者的意见。它不构成财务、投资、法律或税务建议。 加密货币资产具有高度波动性并面临高风险,包括失去全部或大部分投资的风险。交易或持有加密资产可能不适合所有投资者。 本文表达的观点仅为作者的观点,不代表Yellow、其创始人或高管的官方政策或立场。 在做出任何投资决定之前,请务必进行自己的全面研究(D.Y.O.R.)并咨询持牌金融专业人士。
OpenAI 发布 GPT-5.5,在智能体任务和 14 项基准测试上超越 Opus 4.7 | Yellow.com