新たな一騎打ちレビューが、主要なコーディングベンチマークで 88.8% を記録する OpenAI の GPT-5.6 Sol と、ソフトウェアエンジニアリング指標で 80.3% のスコアを持つ Anthropic の Claude Fable 5 を比較している。
主要ポイント:
- GPT-5.6 Sol は Terminal-Bench 2.1 で 88.8% を記録し、Ultra モードではスコアが 91.9% にまで伸びる。
- Claude Fable 5 は SWE-Bench Pro で 80.3% と、公開されている中で最も大きなリードを維持しており、GPT-5.5 の 58.6% を大きく上回る。
- Sol は依然として政府承認を受けた限定プレビューの状態にある一方で、Fable 5 は 7 月 1 日に世界向け提供に復帰した。
GPT-5.6 Sol のベンチマーク主張
OpenAI は 4 月の GPT-5.5 以来となるリリースとして、6 月 26 日に GPT-5.6 ファミリーを プレビュー公開 し、ラインナップを 3 つの階層に分割、Sol をフラッグシップとして位置付けた。
同社によると、Sol は Terminal-Bench 2.1 で 88.8% に到達している。これは、計画・反復・ツール連携を行うコマンドライン型コーディングエージェントをテストするものだ。計算資源を多く消費する Ultra モードでは、複雑な作業を高速化するために連携するサブエージェント群を立ち上げ、このスコアを 91.9% にまで押し上げており、Terminal-Bench チャートで公開されている中では最高値となっている。
公開チャートを 比較した レビュワーらは、同じターミナルテストで Fable 5 が Sol より数ポイント劣ると見ており、示された数値は 83.4%〜84.3% の間でばらついていると指摘している。セキュリティスイート ExploitBench では、Sol はおおむね Mythos クラスの性能に匹敵しつつ、出力量トークンを約 3 分の 1 に抑えているとされ、このコスト圧縮は長時間走るエージェントにとって重要だ。
ただし、プレビュー外のユーザーはほとんどこれらの数値を独立に検証できておらず、多くのレビュワーがこの点を注意書きとして挙げつつ、生のスコア自体は認めている。
関連記事: OpenAI And Anthropic Want SpaceX-Sized IPOs, But Wall Street May Choke
Fable 5 のコーディング面での優位と価格
Fable 5 は、ほとんどのレビュワーが自律ソフトウェア作業の決定打と見なすベンチマークで依然として優位に立っており、その差は小さくない。実際の GitHub イシューのエンドツーエンド修正を測る SWE-Bench Pro では 80.3% を記録し、古い GPT-5.5 の 58.6% を大きく上回っている。一方で、OpenAI は GPT-5.6 の同ベンチマークでの数値を公開していない。
コーディング、推論、知識テスト全般にわたってこれほどのギャップを 確認した アナリストの多くは、単一の小幅アップデートでその差を完全に埋めるのは難しいとみている。
価格面では逆方向の差が出ている。報道によれば、Sol の価格は入力トークン 100 万あたり 5 ドル、出力トークン 100 万あたり 30 ドルとされており、Fable 5 の 10 ドルと 50 ドルの半額だ。複数のレビュワーは、Sol の一般提供が始まった暁には、ターミナル駆動のエージェントは Sol に、リポジトリレベルの修正は Fable 5 にルーティングするのが合理的だと 主張している。
アクセス面の違いはさらに鮮明だ。Sol は依然として、およそ 20 の政府承認パートナー向けの限定プレビューにとどまる一方で、Fable 5 は 7 月 1 日に世界向け提供へと復帰し、7 月 7 日まで有料加入者向けに一時的な利用ボーナスが付与されている。
6 月は両研究所にとってフロンティアモデルへのアクセスがめまぐるしく変化する月となり、その揺り戻しがあらゆるレビューの前提条件となっている。ワシントンは 6 月 12 日、Amazon の研究者がエクスプロイトコードを生成させる脱獄手法を明らかにしたことを受け、「深刻なサイバーセキュリティリスク」を理由に Fable 5 と、より強力な兄弟モデル Mythos 5 をオフラインにするよう命じた。Howard Lutnick 商務長官は、その後 2 週間の審査を経て、6 月 30 日に方針転換を 確認 し、その数日前には Mythos 5 が約 100 の審査済み米国組織向けにひそかに復帰していた。
次に読む: Why Is ETH Still Weak While Ethereum Staking Hits Record Highs?





