新一波正面交鋒評測,將在頂級程式碼基準測試中取得 88.8% 高分的 OpenAI 的 GPT-5.6 Sol,與在軟體工程測試中拿下 80.3% 的 Anthropic 的 Claude Fable 5 進行對比。
重點整理:
- GPT-5.6 Sol 在 Terminal-Bench 2.1 拿下 88.8%,Ultra 模式更將分數推升至 91.9%。
- Claude Fable 5 仍在 SWE-Bench Pro 上保持最寬的已公開領先優勢,得分 80.3%,而 GPT-5.5 則為 58.6%。
- Sol 仍只在有限的政府核准預覽中開放,Fable 5 則已在 7 月 1 日恢復全球上線。
GPT-5.6 Sol 的基準測試主張
OpenAI 於 6 月 26 日 預覽 GPT-5.6 系列,這是繼 4 月的 GPT-5.5 之後的首次發表,並將產品線拆分為三個層級,由 Sol 擔任旗艦。
公司表示,Sol 在 Terminal-Bench 2.1 取得 88.8% 的成績。此測試針對能在命令列中進行規劃、反覆試驗與協調工具的程式代理進行評估。一種計算量龐大的 Ultra 模式,會啟動多個協同子代理來加速複雜工作,使分數提升到 91.9%,是目前 Terminal-Bench 排行榜上已公開的最高成績。
有評論者 比較 已公開的圖表後指出,在同一套終端測試中,Fable 5 的表現比 Sol 低幾個百分點,不過引用數字介於 83.4% 與 84.3% 之間不等。在 ExploitBench 安全測試套件上,據稱 Sol 在效能上可與 Mythos 級模型匹敵,卻只使用約三分之一的輸出 token,這種成本壓縮在長時間代理執行中格外重要。
不過,幾乎沒有人能在預覽計畫之外獨立驗證這些數字,多位評測者在承認其原始分數的同時,也特別點出這項但書。
延伸閱讀: OpenAI 和 Anthropic 想要 SpaceX 規模的 IPO,但華爾街可能吞不下
Fable 5 在程式碼與定價上的領先
Fable 5 仍握有多數評論者視為自主軟體開發關鍵指標的基準測試冠軍,而且領先幅度並不小。它在 SWE-Bench Pro 上拿下 80.3%,這項測試評估的是對真實 GitHub 問題的端到端修復能力;作為對照,較舊的 GPT-5.5 僅為 58.6%,而 OpenAI 目前尚未公布 GPT-5.6 在該測試上的成績。
分析人士在多項程式碼、推理與知識測試中 發現 如此規模的落差後,對於單一一次的漸進式更新是否足以完全彌補這些差距抱持懷疑。
價格則朝另一個方向發展。據報導,Sol 的定價為每百萬輸入 token 5 美元、輸出 token 30 美元,大約是 Fable 5 的 10 美元與 50 美元的一半。多位評論者 主張,較合理的架構是:在 Sol 開放後,將以終端為主導的代理路由至 Sol,而將程式庫層級的修補工作交給 Fable 5。
在存取層面,差異更為鮮明:Sol 仍僅對約 20 家獲政府核准的合作夥伴提供有限預覽,而 Fable 5 則自 7 月 1 日起恢復全球可用,並在 7 月 7 日前為付費訂閱用戶提供暫時的額度加成。
6 月份的種種變化,讓兩家實驗室的尖端模型存取情況成為移動靶,而這種急轉彎也影響了每一篇評測的背景。華府於 6 月 12 日 勒令 Fable 5 及其更強大的兄弟模型 Mythos 5 下線,理由是存在嚴重的網路安全風險;此前,Amazon 研究人員揭露了一種能產生攻擊程式碼的 jailbreak。商務部長 Howard Lutnick 在 6 月 30 日於完成兩週審查後 證實 撤銷相關限制,幾天前 Mythos 5 已低調地重新開放給約 100 家經審核的美國機構使用。





