OpenAI 推出 GPT-5.5,在代理任務與 14 項基準測試上超越 Opus 4.7

OpenAI 推出 GPT-5.5,在代理任務與 14 項基準測試上超越 Opus 4.7

OpenAI 於 4 月 23 日推出 GPT-5.5,將其代號「Spud」的模型定位為目前在自主、多步驟工作上最敏銳的系統。

GPT-5.5 代理式編碼推進

此次發佈登場時間,正好比 AnthropicClaude Opus 4.7 推向全面可用晚了一週,依據 TechCrunch 與 Fortune 報道,兩者在代理工作負載上正面交鋒。

GPT-5.5 專為規劃、呼叫工具、檢查自身輸出並在無須持續提示下反覆改進而設計。

總裁 Greg Brockman 在與記者的電話會上稱其為「一種全新類型的智慧」,並將其定位為邁向「更具代理性與更直覺的運算」的一步。

該模型將陸續提供給 ChatGPT Plus、Pro、Business 與 Enterprise 用戶,並同時推出更強大的 Pro 版本。API 定價為每百萬輸入權杖 5 美元、每百萬輸出權杖 30 美元,支援一百萬權杖的上下文視窗。

延伸閱讀: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

Opus 4.7 基準測試差距

依據 OpenAI 公布、且被 VentureBeat 指出為 14 項評測中最新水準的數據,GPT-5.5 在 Terminal-Bench 2.0 取得 82.7% 分數,明顯領先 Opus 4.7 的 69.4%。

在 FrontierMath 第 1 至第 3 層級,新的模型達到 51.7%,而 Anthropic 旗艦模型則為 43.8%。

在電腦操作測試中,雙方差距較小:GPT-5.5 在 OSWorld-Verified 得到 78.7%,Opus 4.7 則為 78.0%;不過在瀏覽任務上,GPT-5.5 Pro 以 90.1% 明顯超前 79.3%。

評測者仍普遍認為,Opus 4.7 在研究寫作與嚴謹遵循指示方面表現較佳,且具備約 3.75 百萬像素的較高視覺解析度。

模型發佈節奏持續加快。GPT-5.5 距離 GPT-5.4 問世僅六週。Anthropic 先在 2 月推出 Opus 4.6,隨後再發佈 Opus 4.7,而 Google 則持續以 Gemini 3.1 Pro 角逐相同企業級市場區間。

下一篇: TRON Connects $85B USDT Network To LI.FI In Cross-Chain DeFi Push

免責聲明及風險提示: 本文資訊僅供教育與參考之用,並基於作者意見,並不構成金融、投資、法律或稅務建議。 加密貨幣資產具高度波動性並伴隨高風險,可能導致投資大幅虧損或全部損失,並非適合所有投資者。 文章內容僅代表作者觀點,不代表 Yellow、創辦人或管理層立場。 投資前請務必自行徹底研究(D.Y.O.R.),並諮詢持牌金融專業人士。
OpenAI 推出 GPT-5.5,在代理任務與 14 項基準測試上超越 Opus 4.7 | Yellow.com