GPT-5.6 Sol vs Claude Fable 5：コーディングベンチマークは互角の競争を示す

新しい一対一のレビューでは、主要なコーディングベンチマークで 88.8% を記録した OpenAI の GPT-5.6 Sol と、ソフトウェアエンジニアリングで 80.3% を記録した Anthropic の Claude Fable 5 が、直接比較されている。

主なポイント

GPT-5.6 Sol は Terminal-Bench 2.1 で 88.8% を記録し、Ultra モードではスコアが 91.9% に達する。

Claude Fable 5 は SWE-Bench Pro で 80.3% を記録し、GPT-5.5 の 58.6% に対して、公開されている中で最も大きなリードを維持している。

Sol は依然として政府承認済みパートナー向けの限定プレビューのままだが、Fable 5 は 7 月 1 日に世界向け提供へ復帰した。

GPT-5.6 Sol のベンチマーク主張

OpenAI は 6 月 26 日に GPT-5.6 ファミリーをプレビューし、4 月の GPT-5.5 以来となる新リリースで、Sol をフラグシップとする 3 つのティアにラインナップを分割した。

同社によると、Sol は Terminal-Bench 2.1 で 88.8% に達している。これは、計画・反復・ツール連携を行うコマンドライン向けコーディングエージェントを試すベンチマークだ。計算資源を大量に消費する Ultra モードでは、複雑なタスクを高速化するために協調するサブエージェント群を立ち上げ、そのスコアを 91.9% まで押し上げている。これは Terminal-Bench チャート上で公表されている中で最高値だ。

公開チャートを比較したレビューアーは、同じターミナル系テストで Fable 5 を Sol より数ポイント下と位置付けているが、引用される数値は 83.4% から 84.3% までばらつきがある。セキュリティスイート ExploitBench では、Sol は Mythos クラスに匹敵する性能を示しつつ、出力トークン数を約 3 分の 1 に抑えているとされ、長時間のエージェント実行では重要なコスト圧縮となる。

ただしプレビューの外でこれらの数値を独立検証できる人はほとんどおらず、多くのレビューアーが、生のスコアを認めつつも注意点として指摘している。

Fable 5 のコーディング優位と価格

Fable 5 は、ほとんどのレビューアーが自律的なソフトウェア作業で決定的だとみなすベンチマークで依然として主導権を握っており、そのリードも小さくない。実在の GitHub イシューに対するエンドツーエンドの修正を測定する SWE-Bench Pro では 80.3% を記録し、旧世代の GPT-5.5 の 58.6% を大きく上回っている。一方で、OpenAI は GPT-5.6 の同ベンチマーク結果を公開していない。

コーディング、推論、知識テスト全般でこれほどの差を確認したアナリストたちは、単一のマイナーアップデートでそのギャップを完全に埋めるのは難しいと見ている。

価格面では逆方向に傾く。Sol は入力トークン 100 万あたり 5 ドル、出力トークン 100 万あたり 30 ドルとされており、Fable 5 の 10 ドル／50 ドルのおよそ半額だ。複数のレビューアーは、議論の中で、Sol の一般公開後はターミナル駆動のエージェントを Sol に、リポジトリ全体の修正は Fable 5 に振り分ける構成が合理的だと主張した。

アクセス面が最も明確な違いを生む。Sol は、約 20 の政府承認済みパートナー向け限定プレビューにとどまる一方で、Fable 5 は 7 月 1 日に世界公開へ復帰し、7 月 7 日まで有料加入者向けに一時的な使用ボーナスを提供している。

6 月は、両ラボにとってフロンティアモデルへのアクセス状況を日々変化する的にしてしまい、そのめまぐるしさがすべてのレビューの背景となっている。ワシントンは、Amazon の研究者がエクスプロイトコードを生成する脱獄手法を報告したことを受けて、深刻なサイバーセキュリティリスクを理由に、6 月 12 日に Fable 5 と、より強力な兄弟モデル Mythos 5 をオフラインにするよう命じた。その後、商務長官の Howard Lutnick が 2 週間の審査を経て方針転換を確認したのは 6 月 30 日であり、その数日前には Mythos 5 が静かに、審査を通過した約 100 の米国内組織へ復帰していた。

次に読む: Why Is ETH Still Weak While Ethereum Staking Hits Record Highs?