最新一批正面交鋒評測,將持有領先編碼基準測試 88.8% 分數的 OpenAI 的 GPT-5.6 Sol,與 Anthropic 的 Claude Fable 5 及其 80.3% 軟件工程成績作比較。
重點摘要:
- GPT-5.6 Sol 在 Terminal-Bench 2.1 取得 88.8%,其 Ultra 模式更將分數推高至 91.9%。
- Claude Fable 5 在 SWE-Bench Pro 上保持最廣為引用的領先優勢,得分 80.3%,而 GPT-5.5 只有 58.6%。
- Sol 仍然只在獲政府批准的有限預覽中提供,Fable 5 則已於 7 月 1 日重返全球可用狀態。
GPT-5.6 Sol 的基準測試聲稱
OpenAI 於 6 月 26 日預覽 GPT-5.6 系列,這是繼 4 月推出 GPT-5.5 後的首個版本,並將產品線拆分為三個層級,由 Sol 擔任旗艦型號。
公司指稱,Sol 在 Terminal-Bench 2.1 可達 88.8%,這是一項針對能夠規劃、反覆迭代及協調工具的命令列編碼代理測試。一個計算量龐大的 Ultra 模式會啟動多個協調子代理,加速複雜工作,可將分數拉高至 91.9%,成為 Terminal-Bench 排行榜目前公開的最高成績。
將已公布圖表作比較的評測者指出,在同一個終端測試中,Fable 5 落後 Sol 數個百分點,但引用數字介乎 83.4% 至 84.3% 不等。在 ExploitBench 安全測試套件上,據報 Sol 在表現上可媲美 Mythos 級別,同時只耗用約三分之一的輸出 tokens,這種成本壓縮對長時間運行的代理尤為重要。
不過,幾乎沒有人能在預覽以外獨立驗證這些數字,這點被多位評測者標註為重要保留條件,即使他們同時承認其原始分數的吸引力。
亦可閱讀: OpenAI 和 Anthropic 想要 SpaceX 規模的 IPO,但華爾街可能頂不住
Fable 5 的編碼領先與定價
Fable 5 仍然在多數評測者視為自主軟件工作關鍵指標的基準上佔優,而且優勢並不細小。它在 SWE-Bench Pro 上取得 80.3% 的成績,此測試衡量的是對真實 GitHub 問題的端到端修復;相比之下,舊版 GPT-5.5 僅得 58.6%,而 OpenAI 至今未公布 GPT-5.6 在該測試上的數字。
一些分析師在編碼、推理和知識測試中發現出現如此規模的差距,因而質疑單一次漸進式更新是否足以完全抹平這些落差。
價格則向另一邊傾斜——據報 Sol 的定價為每百萬輸入 tokens 5 美元、輸出 30 美元,約為 Fable 5 各自 10 與 50 美元的一半。多位評測者主張,一個合理的設定是:只要 Sol 開放,一旦涉及終端驅動的代理工作便導流至 Sol,而涉及程式庫/代碼庫層級修復的工作則交由 Fable 5 處理。
存取方面劃出最鮮明的界線:Sol 目前仍僅在約 20 個獲政府審批的合作夥伴中以有限預覽形式提供;相反,Fable 5 則已於 7 月 1 日重新在全球上線,並在 7 月 7 日前向付費訂閱者提供臨時的額外使用配額。
6 月份令兩家實驗室的前沿模型存取狀況變得飄忽不定,而這種「鞦韆式」變化亦成為所有評測的背景。華盛頓方面在 6 月 12 日勒令將 Fable 5 及其更強大的兄弟模型 Mythos 5 下線,理由是存在嚴重網絡安全風險;事件起因是 Amazon 研究人員發現一個可產生攻擊程式碼的越獄手法。商務部長 Howard Lutnick 在 6 月 30 日於為期兩週的審查後確認撤銷相關措施,而在數日前,Mythos 5 已低調地重新開放給約 100 間經審核的美國機構使用。
下一篇閱讀: 為何 ETH 仍然疲弱,而以太坊質押卻創下歷史新高?





