GPT-5.6 Sol 對決 Claude Fable 5：程式開發跑分呈現分庭抗禮

一系列全新一對一評測，將在主流程式開發跑分中拿下 88.8% 高分的 OpenAI 的 GPT-5.6 Sol，與拿到 80.3% 軟體工程成績的 Anthropic 的 Claude Fable 5 正面交鋒。

重點整理：

GPT-5.6 Sol 以 88.8% 拿下 Terminal-Bench 2.1 第一名，其 Ultra 模式更將分數推高至 91.9%。

Claude Fable 5 仍在 SWE-Bench Pro 維持已公開成績中的最大領先，以 80.3% 對比 GPT-5.5 的 58.6%。

Sol 仍僅在政府批准的有限預覽階段，而 Fable 5 已於 7 月 1 日重新向全球用戶開放。

GPT-5.6 Sol 的跑分說法

OpenAI 於 6 月 26 日預覽 GPT-5.6 系列，這是繼 4 月 GPT-5.5 之後的首次更新，並將產品線切分為三個層級，由 Sol 擔任旗艦。

公司表示，Sol 在 Terminal-Bench 2.1 上達到 88.8%，這是一項針對指令列程式代理的測試，評估其規劃、反覆迭代及協調工具的能力。一個高度耗算力的 Ultra 模式，會啟動多個協同子代理以加速複雜工作，將分數拉高至 91.9%，是目前 Terminal-Bench 排行榜上已公開的最高成績。

一些對照已公布圖表的評測者指出，在同一項終端測試上，Fable 5 明顯落後 Sol 幾個百分點，但引用數據介乎 83.4% 至 84.3%。在 ExploitBench 資安測試套件中，據稱 Sol 能以約三分之一的輸出 token 數，達到接近 Mythos 等級的表現，這種成本壓縮在長時間代理任務中相當關鍵。

不過，幾乎沒有預覽名單外的用戶能獨立驗證這些數字，多位評測者在承認其原始分數亮眼的同時，也反覆強調這個但書。

延伸閱讀： OpenAI 和 Anthropic 想要 SpaceX 規模的 IPO，但華爾街可能吃不消

Fable 5 的程式領先與定價

Fable 5 仍然在多數評測者視為自動化軟體工作關鍵指標的跑分裡佔上風，而且優勢不算小。它在 SWE-Bench Pro 上拿下 80.3%，這個基準測試衡量的是從頭到尾修復實際 GitHub issue 的能力；對比之下，較舊的 GPT-5.5 僅有 58.6%，而 OpenAI 迄今尚未公布 GPT-5.6 在該項測試的數字。

一些分析師在程式開發、推理與知識測試中發現如此巨大的差距，因此懷疑單一次的漸進式更新就能完全抹平這些落差。

價格則朝相反方向發展，因為據報 Sol 的標價為每百萬輸入 token 5 美元、輸出 30 美元，大約是 Fable 5 每百萬輸入 10 美元、輸出 50 美元的一半。多位評測者主張，合理的架構將會是在 Sol 開放後，把偏向「終端操作」的代理工作導向 Sol，而將「整個程式庫層級修補」交給 Fable 5。

存取條件則劃出最鮮明的界線：Sol 目前仍只對約 20 家經政府審批的合作夥伴開放有限預覽；相對地，Fable 5 已於 7 月 1 日恢復全球上線，並在 7 月 7 日前對付費訂閱者提供暫時性的額度加成。

6 月讓兩家實驗室的前沿模型存取狀態變得瞬息萬變，而這種巨幅晃動也影響每一篇評測。華府在 Amazon 研究人員揭露一則能產生攻擊程式碼的越獄手法後，以「嚴重網路安全風險」為由，於 6 月 12 日勒令 Fable 5 與其更強大的兄長 Mythos 5 下線。商務部長 Howard Lutnick 在 6 月 30 日證實，經過兩週審查後已翻案，幾天前 Mythos 5 也低調重返約 100 間經審核的美國組織。

下一篇閱讀： 為何 ETH 仍然疲弱，卻創下以太幣質押新高？