OpenAI 推出 GPT-5.5,在代理任務與 14 項基準測試中領先 Opus 4.7

OpenAI 推出 GPT-5.5,在代理任務與 14 項基準測試中領先 Opus 4.7

OpenAI 於 4 月 23 日發布 GPT-5.5,將這款代號「Spud」的模型定位為目前在自主、多步驟工作上最鋒利的系統。

GPT-5.5 代理式程式開發推進

此次發布落在 Anthropic 推出 Claude Opus 4.7開放一般使用的一週後,根據 TechCrunch 與 Fortune 報導,直接在代理工作負載上正面交鋒。

GPT-5.5 被設計用來規劃、呼叫工具、檢查自身輸出,並在無須持續提示的情況下反覆迭代。

總裁 Greg Brockman 在與記者的電話會議上稱之為「一個新等級的智慧」,並將其定位為邁向「更具代理性與更直覺運算」的一步。

該模型將陸續提供給 ChatGPT Plus、Pro、Business 與 Enterprise 用戶,並同步推出性能更強的 Pro 變體。API 價格自每百萬輸入 token 5 美元、每百萬輸出 token 30 美元起,支援一百萬 token 的上下文視窗。

延伸閱讀: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

Opus 4.7 基準測試差距

依據 OpenAI 自家數據——VentureBeat 指出其在 14 項評測中達到業界最先進水準——GPT-5.5 在 Terminal-Bench 2.0 中取得 82.7% 分數,明顯領先 Opus 4.7 的 69.4%。

在 FrontierMath 第 1 至第 3 層級上,新模型取得 51.7%,而 Anthropic 旗艦模型則為 43.8%。

在電腦使用能力方面差距較小:GPT-5.5 在 OSWorld-Verified 上得分 78.7%,略高於 Opus 4.7 的 78.0%;不過在瀏覽任務上,GPT-5.5 Pro 則以 90.1% 對上 79.3% 拉開差距。

評測者仍普遍認為 Opus 4.7 在研究寫作、指令遵循精準度上更勝一籌,且視覺解析度較高,約達 3.75 百萬像素。

發布節奏持續加快。GPT-5.5 在 GPT-5.4 推出後僅隔六週登場。Anthropic 則在 Opus 4.7 之前於 2 月先推出 Opus 4.6,而 Google 則持續將 Gemini 3.1 Pro 鎖定在同一企業級市場區間。

接下來看: TRON Connects $85B USDT Network To LI.FI In Cross-Chain DeFi Push

免責聲明與風險警告: 本文提供的資訊僅供教育與參考用途,並基於作者觀點,不構成財務、投資、法律或稅務建議。 加密貨幣資產具有高度波動性並伴隨高風險,包括可能損失全部或大部分投資金額。買賣或持有加密資產可能並不適合所有投資者。 本文中所表達的觀點僅代表作者立場,不代表 Yellow、其創辦人或管理層的官方政策或意見。 請務必自行進行充分研究(D.Y.O.R.),並在做出任何投資決策前諮詢持牌金融專業人士。
OpenAI 推出 GPT-5.5,在代理任務與 14 項基準測試中領先 Opus 4.7 | Yellow.com