OpenAI 於 4 月 23 日推出 GPT-5.5,將其代號「Spud」的模型定位為目前在自主、多步驟工作上最敏銳的系統。
GPT-5.5 代理式編碼推進
此次發佈登場時間,正好比 Anthropic 將 Claude Opus 4.7 推向全面可用晚了一週,依據 TechCrunch 與 Fortune 報道,兩者在代理工作負載上正面交鋒。
GPT-5.5 專為規劃、呼叫工具、檢查自身輸出並在無須持續提示下反覆改進而設計。
總裁 Greg Brockman 在與記者的電話會上稱其為「一種全新類型的智慧」,並將其定位為邁向「更具代理性與更直覺的運算」的一步。
該模型將陸續提供給 ChatGPT Plus、Pro、Business 與 Enterprise 用戶,並同時推出更強大的 Pro 版本。API 定價為每百萬輸入權杖 5 美元、每百萬輸出權杖 30 美元,支援一百萬權杖的上下文視窗。
延伸閱讀: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move
Opus 4.7 基準測試差距
依據 OpenAI 公布、且被 VentureBeat 指出為 14 項評測中最新水準的數據,GPT-5.5 在 Terminal-Bench 2.0 取得 82.7% 分數,明顯領先 Opus 4.7 的 69.4%。
在 FrontierMath 第 1 至第 3 層級,新的模型達到 51.7%,而 Anthropic 旗艦模型則為 43.8%。
在電腦操作測試中,雙方差距較小:GPT-5.5 在 OSWorld-Verified 得到 78.7%,Opus 4.7 則為 78.0%;不過在瀏覽任務上,GPT-5.5 Pro 以 90.1% 明顯超前 79.3%。
評測者仍普遍認為,Opus 4.7 在研究寫作與嚴謹遵循指示方面表現較佳,且具備約 3.75 百萬像素的較高視覺解析度。
模型發佈節奏持續加快。GPT-5.5 距離 GPT-5.4 問世僅六週。Anthropic 先在 2 月推出 Opus 4.6,隨後再發佈 Opus 4.7,而 Google 則持續以 Gemini 3.1 Pro 角逐相同企業級市場區間。
下一篇: TRON Connects $85B USDT Network To LI.FI In Cross-Chain DeFi Push






