OpenAI 於 4 月 23 日發布 GPT-5.5,將這款代號「Spud」的模型定位為目前在自主、多步驟工作上最鋒利的系統。
GPT-5.5 代理式程式開發推進
此次發布落在 Anthropic 推出 Claude Opus 4.7 並開放一般使用的一週後,根據 TechCrunch 與 Fortune 報導,直接在代理工作負載上正面交鋒。
GPT-5.5 被設計用來規劃、呼叫工具、檢查自身輸出,並在無須持續提示的情況下反覆迭代。
總裁 Greg Brockman 在與記者的電話會議上稱之為「一個新等級的智慧」,並將其定位為邁向「更具代理性與更直覺運算」的一步。
該模型將陸續提供給 ChatGPT Plus、Pro、Business 與 Enterprise 用戶,並同步推出性能更強的 Pro 變體。API 價格自每百萬輸入 token 5 美元、每百萬輸出 token 30 美元起,支援一百萬 token 的上下文視窗。
延伸閱讀: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move
Opus 4.7 基準測試差距
依據 OpenAI 自家數據——VentureBeat 指出其在 14 項評測中達到業界最先進水準——GPT-5.5 在 Terminal-Bench 2.0 中取得 82.7% 分數,明顯領先 Opus 4.7 的 69.4%。
在 FrontierMath 第 1 至第 3 層級上,新模型取得 51.7%,而 Anthropic 旗艦模型則為 43.8%。
在電腦使用能力方面差距較小:GPT-5.5 在 OSWorld-Verified 上得分 78.7%,略高於 Opus 4.7 的 78.0%;不過在瀏覽任務上,GPT-5.5 Pro 則以 90.1% 對上 79.3% 拉開差距。
評測者仍普遍認為 Opus 4.7 在研究寫作、指令遵循精準度上更勝一籌,且視覺解析度較高,約達 3.75 百萬像素。
發布節奏持續加快。GPT-5.5 在 GPT-5.4 推出後僅隔六週登場。Anthropic 則在 Opus 4.7 之前於 2 月先推出 Opus 4.6,而 Google 則持續將 Gemini 3.1 Pro 鎖定在同一企業級市場區間。
接下來看: TRON Connects $85B USDT Network To LI.FI In Cross-Chain DeFi Push






