Yellow.com

新一波正面交鋒評測，將在頂級程式碼基準測試中取得 88.8% 高分的 OpenAI 的 GPT-5.6 Sol，與在軟體工程測試中拿下 80.3% 的 Anthropic 的 Claude Fable 5 進行對比。

重點整理：

GPT-5.6 Sol 在 Terminal-Bench 2.1 拿下 88.8%，Ultra 模式更將分數推升至 91.9%。

Claude Fable 5 仍在 SWE-Bench Pro 上保持最寬的已公開領先優勢，得分 80.3%，而 GPT-5.5 則為 58.6%。

Sol 仍只在有限的政府核准預覽中開放，Fable 5 則已在 7 月 1 日恢復全球上線。

GPT-5.6 Sol 的基準測試主張

OpenAI 於 6 月 26 日預覽 GPT-5.6 系列，這是繼 4 月的 GPT-5.5 之後的首次發表，並將產品線拆分為三個層級，由 Sol 擔任旗艦。

公司表示，Sol 在 Terminal-Bench 2.1 取得 88.8% 的成績。此測試針對能在命令列中進行規劃、反覆試驗與協調工具的程式代理進行評估。一種計算量龐大的 Ultra 模式，會啟動多個協同子代理來加速複雜工作，使分數提升到 91.9%，是目前 Terminal-Bench 排行榜上已公開的最高成績。

有評論者比較已公開的圖表後指出，在同一套終端測試中，Fable 5 的表現比 Sol 低幾個百分點，不過引用數字介於 83.4% 與 84.3% 之間不等。在 ExploitBench 安全測試套件上，據稱 Sol 在效能上可與 Mythos 級模型匹敵，卻只使用約三分之一的輸出 token，這種成本壓縮在長時間代理執行中格外重要。

不過，幾乎沒有人能在預覽計畫之外獨立驗證這些數字，多位評測者在承認其原始分數的同時，也特別點出這項但書。

延伸閱讀： OpenAI 和 Anthropic 想要 SpaceX 規模的 IPO，但華爾街可能吞不下

Fable 5 在程式碼與定價上的領先

Fable 5 仍握有多數評論者視為自主軟體開發關鍵指標的基準測試冠軍，而且領先幅度並不小。它在 SWE-Bench Pro 上拿下 80.3%，這項測試評估的是對真實 GitHub 問題的端到端修復能力；作為對照，較舊的 GPT-5.5 僅為 58.6%，而 OpenAI 目前尚未公布 GPT-5.6 在該測試上的成績。

分析人士在多項程式碼、推理與知識測試中發現如此規模的落差後，對於單一一次的漸進式更新是否足以完全彌補這些差距抱持懷疑。

價格則朝另一個方向發展。據報導，Sol 的定價為每百萬輸入 token 5 美元、輸出 token 30 美元，大約是 Fable 5 的 10 美元與 50 美元的一半。多位評論者主張，較合理的架構是：在 Sol 開放後，將以終端為主導的代理路由至 Sol，而將程式庫層級的修補工作交給 Fable 5。

在存取層面，差異更為鮮明：Sol 仍僅對約 20 家獲政府核准的合作夥伴提供有限預覽，而 Fable 5 則自 7 月 1 日起恢復全球可用，並在 7 月 7 日前為付費訂閱用戶提供暫時的額度加成。

6 月份的種種變化，讓兩家實驗室的尖端模型存取情況成為移動靶，而這種急轉彎也影響了每一篇評測的背景。華府於 6 月 12 日勒令 Fable 5 及其更強大的兄弟模型 Mythos 5 下線，理由是存在嚴重的網路安全風險；此前，Amazon 研究人員揭露了一種能產生攻擊程式碼的 jailbreak。商務部長 Howard Lutnick 在 6 月 30 日於完成兩週審查後證實撤銷相關限制，幾天前 Mythos 5 已低調地重新開放給約 100 家經審核的美國機構使用。

下一篇： 為何 ETH 仍疲弱，卻同時創下以太坊質押新高紀錄？

Alexey Bondarev

Alexey Bondarev 是 Yellow.com 的內容總監，過去 10 年持續報導加密貨幣領域。他專長於撰寫深入的 Research 和 Learn 類型文章，特別關注分析式報導、產業脈絡，以及塑造加密貨幣世界的更大力量，從 AI 時代與資安技術到金融科技創新。他相信數位的一切即將全面超越類比的一切，並正為實現這一願景而全力以赴。

GPT-5.6 Sol 對決 Claude Fable 5：程式碼效能評測顯示勢均力敵

重點整理：

GPT-5.6 Sol 的基準測試主張

Fable 5 在程式碼與定價上的領先

Alexey Bondarev