Claude Opus 4.8 が複数のコーディングテストで Gemini と GPT を上回る

Anthropic は Claude Opus 4.8 をリリースし、アップグレード版モデルが OpenAI の GPT-5.5 と Google の Gemini 3.1 Pro を複数のコーディングベンチマークで上回ると主張している。

重要なポイント:

Anthropic は 5 月 28 日に Claude Opus 4.8 をリリースし、価格を従来の 4.7 と同水準に据え置いた。

同社によると、SWE-Bench Pro などのテストで OpenAI の GPT-5.5 や Google の Gemini 3.1 Pro を上回っている。

刷新された高速モードとダイナミックワークフローにより、エージェント的作業のコストと時間の削減を狙っている。

Claude Opus 4.8 がコーディングベンチマークでトップに

同社は木曜日にこのモデルを発表し、約 6 週間前に提供を開始した Opus 4.7 を土台にしていると説明した。Anthropic によると、Opus 4.8 は SWE-Bench Pro コーディングテストで 69.2% を記録し、その分野で両社を上回り、他の複数の指標でもトップに立ったという。また、コンピューター利用、ナレッジワーク、財務分析の分野でも成果を報告しており、Terminal-Bench 2.1 ベンチマークでは 74.2% を記録した。

Anthropic は、このリリースを「より正直なモデル」と位置付けており、テスターがモデルの不確実性の自己申告や根拠のない主張を控える傾向を確認したと述べている。社内レビューでは、Opus 4.7 と比べてコーディング上の欠陥を見逃す可能性が約 4 分の 1 に減少し、ユーザーの自律性を尊重する指標でも高いスコアを記録したとしている。

Anthropic のコスト管理が重要な理由

価格は、入力トークン 100 万件あたり 5 ドル、出力トークン 100 万件あたり 25 ドルと据え置かれた。刷新された高速モードは、従来設定より約 150% 高速で、コストは 3 分の 1 になったという。Anthropic はまた、動的ワークフローのリサーチプレビューを公開し、数十万行規模のコード移行に対して、数百の並列サブエージェントを立ち上げられるようにした。

それでも、進歩はあくまで漸進的なものにとどまる。

GPT-5.5 は依然として、あるターミナルコーディングテストでリードを維持しており、Anthropic 自身もこのモデルを「ブレイクスルーではなく控えめな一歩」と位置付けている。開発者は、Messages API を通じてタスクの途中で Claude への指示を修正できるようになった。より安価な AI を探す購入者にとっては、トップモデル間の僅差よりも、こうした支出コントロールの方が重視される可能性がある。

Anthropic の評価額と Mythos を巡る背景

このローンチと同じ日に、Anthropic は 650 億ドル規模のシリーズ H 調達を発表し、評価額は 9,650 億ドルに達した。このラウンドは Altimeter Capital、Dragoneer、Greenoaks、Sequoia Capital が主導し、設立 5 年の同社の評価額は、OpenAI が報じられている 8,500 億ドルを上回り、年間収益は 470 億ドル近くに達した。

評価額は 2 月の 3,800 億ドルからほぼ 3 倍となり、IPO 前の最後のプライベート調達となる可能性がある。同社は、サイバーセキュリティ向けに構築した、より強力な Mythos モデルについて、安全性への懸念から、ごく少数の組織のみに提供するにとどめてきた。今後数週間のうちに、すべての顧客に対して Mythos クラスのシステムへのアクセスを拡大する見込みだとしている。

次に読む: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks