OpenAI 在週五預覽了其由三款模型組成的 GPT-5.6 家族,在程式開發、生物學與網路安全方面有明顯提升,但目前僅限少數合作夥伴可存取。
重點摘要:
- GPT-5.6 以三層家族形式推出,Sol 為旗艦,Terra 為平衡選項,Luna 則主打速度。
- 全新的 max 與 ultra 模式讓 Sol 能進行更長時間推理,並將困難任務拆分給平行子代理處理。
- OpenAI 將三個層級都評為在網路與生物領域的高風險模型,因此暫緩全面開放。
GPT-5.6 家族針對程式與網路安全工作而生
該公司發表了迄今最強大的 Sol 模型;Terra 則是平衡的日常等級,定價約為前一代的一半;Luna 則為速度最快的選項,每 100 萬個輸入權杖僅需 1 美元。全新的命名方式以數字代表世代,而名稱則對應穩定的能力層級。各層級可依自身節奏升級,讓開發者在速度、深度與價格之間有更清楚的選擇。
GPT-5.6 也首次提供兩種方式,讓 Sol 能在長程、多步驟任務上發揮更大火力。max 設定可讓模型擁有更多「思考時間」,而 ultra 模式則會將複雜任務拆分給多個平行子代理處理,再合併其結果。
OpenAI 也計畫在 7 月於 Cerebras 晶片上運行 Sol,速度最高可達每秒 750 個權杖。
Sol 在 Terminal-Bench 2.1 測試中創下新高分,該測試聚焦需要規劃與工具協調能力的命令列工作。在基因體分析上,它略勝 GPT-5.5 一籌,同時消耗更少權杖。
在某項攻擊利用基準測試中,Sol 使用約三分之一的輸出權杖,就追平Anthropic 的 Mythos Preview 的表現。
延伸閱讀:Chainlink 錢包紀錄將 LINK 的 9 美元反彈推向關鍵考驗
ChatGPT 風險分級重塑 AI 存取方式
OpenAI 將三款模型全數歸類為在網路與生物濫用方面的高風險,這是首次有較小、較便宜的層級也被列為此級別。公司表示,尚無任何一款達到會觸發最嚴格限制的「關鍵等級」,而 Sol 在找出與修補弱點方面的表現,優於發動完整攻擊。
這樣的評等也說明了為何目前存取仍然有限。約有 20 家經政府核准的組織可在預覽期間運行這些模型,並承諾數週內將更廣泛地推向 ChatGPT、Codex 與 API。資安研究員 Alex Stamos 則警告,將前沿工具關在高牆內,可能讓海外競爭者在 AI 競賽中取得優勢。
這次發表為該公司一年來收緊網路安全控管畫下句點:從去年 12 月在 GPT-5.2 上導入首批防護措施,到 GPT-5.5 上更嚴格的分類器。對於 GPT-5.6,OpenAI 表示光是自動化紅隊測試就耗費超過 70 萬個 A100 等效 GPU 小時。





