最新的正面交鋒評測,讓擁有主流程式碼基準測試 88.8% 高分的 OpenAI 的 GPT-5.6 Sol, 對上 Anthropic 的 Claude Fable 5,其軟體工程成績為 80.3%。
重點整理:
- GPT-5.6 Sol 在 Terminal-Bench 2.1 拿下 88.8%,其 Ultra 模式更將分數推升至 91.9%。
- Claude Fable 5 在 SWE-Bench Pro 上維持已公布的最大領先優勢,成績 80.3%,而 GPT-5.5 則為 58.6%。
- Sol 仍處於受政府核准的有限預覽階段,而 Fable 5 則已於 7 月 1 日恢復全球可用。
GPT-5.6 Sol 基準測試主張
OpenAI 在 6 月 26 日 預覽 了 GPT-5.6 系列, 這是 4 月 GPT-5.5 之後的首次發表,並將產品線拆分為三個層級,由 Sol 擔任旗艦。
官方表示,Sol 在 Terminal-Bench 2.1(測試能夠規劃、反覆迭代並協調工具的命令列程式代理)中達到 88.8%。 一種計算資源密集的 Ultra 模式會啟動協同子代理來加速複雜工作,將成績推升至 91.9%, 是目前 Terminal-Bench 排行中已公開的最高分。
評測者在 比較 已公布圖表後認為, Fable 5 在同一套終端機測試中落後 Sol 數個百分點,雖然引用數字介於 83.4% 到 84.3% 之間。 在 ExploitBench 資安測試套件上,據稱 Sol 以約三分之一的輸出 token 消耗, 達到與 Mythos 級別相當的表現;在長時間代理執行中,這種成本壓縮相當重要。
目前幾乎沒有預覽計畫以外的使用者能獨立驗證這些數據, 多位評測者在承認原始分數亮眼的同時,也特別提出這點保留。
延伸閱讀: OpenAI 和 Anthropic 想要 SpaceX 等級的 IPO,但華爾街可能吞不下
Fable 5 的程式領先與定價
Fable 5 仍然在多數評測者視為自動化軟體工作關鍵指標的基準上占上風,且優勢不小。 它在 SWE-Bench Pro(衡量對真實 GitHub 問題進行端到端修復的能力)拿下 80.3%, 對比舊款 GPT-5.5 的 58.6%,而 OpenAI 尚未公布 GPT-5.6 在該測試上的數據。
分析師在 發現 程式、推理與知識測試中存在如此大落差後, 懷疑單一次的漸進式更新就能完全補齊差距。
價格則出現相反情況:據報 Sol 的標價為每百萬輸入 token 5 美元、輸出 30 美元, 只要 Fable 5 的一半(分別為 10 與 50 美元)。 數位評測者 主張, 合理的設定是:等 Sol 開放後,將以終端機為主導的代理導向 Sol,而以版本庫層級修復為主的工作則交給 Fable 5。
在存取權上差異最為鮮明:Sol 仍僅對約 20 家通過政府審查的合作夥伴開放有限預覽, 而 Fable 5 則於 7 月 1 日恢復全球上線,並對付費訂閱者提供至 7 月 7 日的暫時用量加成。
6 月讓兩家實驗室的前沿模型存取狀態成為不斷變動的靶心,而這種反覆拉扯也成了所有評測的背景。 華盛頓在 Amazon 研究人員發現一個能產生攻擊程式碼的越獄手法後, 以嚴重網路安全風險為由,於 6 月 12 日 勒令 Fable 5 與其更強大的兄弟模型 Mythos 5 下線。 商務部長 Howard Lutnick 在 6 月 30 日於兩週審查結束後 證實 解除管制, 幾天前 Mythos 5 已低調重新提供給約 100 家經審核的美國機構使用。





