一系列全新一對一評測,將在主流程式開發跑分中拿下 88.8% 高分的 OpenAI 的 GPT-5.6 Sol,與拿到 80.3% 軟體工程成績的 Anthropic 的 Claude Fable 5 正面交鋒。
重點整理:
- GPT-5.6 Sol 以 88.8% 拿下 Terminal-Bench 2.1 第一名,其 Ultra 模式更將分數推高至 91.9%。
- Claude Fable 5 仍在 SWE-Bench Pro 維持已公開成績中的最大領先,以 80.3% 對比 GPT-5.5 的 58.6%。
- Sol 仍僅在政府批准的有限預覽階段,而 Fable 5 已於 7 月 1 日重新向全球用戶開放。
GPT-5.6 Sol 的跑分說法
OpenAI 於 6 月 26 日預覽 GPT-5.6 系列,這是繼 4 月 GPT-5.5 之後的首次更新,並將產品線切分為三個層級,由 Sol 擔任旗艦。
公司表示,Sol 在 Terminal-Bench 2.1 上達到 88.8%,這是一項針對指令列程式代理的測試,評估其規劃、反覆迭代及協調工具的能力。一個高度耗算力的 Ultra 模式,會啟動多個協同子代理以加速複雜工作,將分數拉高至 91.9%,是目前 Terminal-Bench 排行榜上已公開的最高成績。
一些對照已公布圖表的評測者指出,在同一項終端測試上,Fable 5 明顯落後 Sol 幾個百分點,但引用數據介乎 83.4% 至 84.3%。在 ExploitBench 資安測試套件中,據稱 Sol 能以約三分之一的輸出 token 數,達到接近 Mythos 等級的表現,這種成本壓縮在長時間代理任務中相當關鍵。
不過,幾乎沒有預覽名單外的用戶能獨立驗證這些數字,多位評測者在承認其原始分數亮眼的同時,也反覆強調這個但書。
延伸閱讀: OpenAI 和 Anthropic 想要 SpaceX 規模的 IPO,但華爾街可能吃不消
Fable 5 的程式領先與定價
Fable 5 仍然在多數評測者視為自動化軟體工作關鍵指標的跑分裡佔上風,而且優勢不算小。它在 SWE-Bench Pro 上拿下 80.3%,這個基準測試衡量的是從頭到尾修復實際 GitHub issue 的能力;對比之下,較舊的 GPT-5.5 僅有 58.6%,而 OpenAI 迄今尚未公布 GPT-5.6 在該項測試的數字。
一些分析師在程式開發、推理與知識測試中發現如此巨大的差距,因此懷疑單一次的漸進式更新就能完全抹平這些落差。
價格則朝相反方向發展,因為據報 Sol 的標價為每百萬輸入 token 5 美元、輸出 30 美元,大約是 Fable 5 每百萬輸入 10 美元、輸出 50 美元的一半。多位評測者主張,合理的架構將會是在 Sol 開放後,把偏向「終端操作」的代理工作導向 Sol,而將「整個程式庫層級修補」交給 Fable 5。
存取條件則劃出最鮮明的界線:Sol 目前仍只對約 20 家經政府審批的合作夥伴開放有限預覽;相對地,Fable 5 已於 7 月 1 日恢復全球上線,並在 7 月 7 日前對付費訂閱者提供暫時性的額度加成。
6 月讓兩家實驗室的前沿模型存取狀態變得瞬息萬變,而這種巨幅晃動也影響每一篇評測。華府在 Amazon 研究人員揭露一則能產生攻擊程式碼的越獄手法後,以「嚴重網路安全風險」為由,於 6 月 12 日勒令 Fable 5 與其更強大的兄長 Mythos 5 下線。商務部長 Howard Lutnick 在 6 月 30 日證實,經過兩週審查後已翻案,幾天前 Mythos 5 也低調重返約 100 間經審核的美國組織。
下一篇閱讀: 為何 ETH 仍然疲弱,卻創下以太幣質押新高?





