OpenAI が GPT-5.5 を公開、エージェントタスクと14のベンチマークで Opus 4.7 を上回る

OpenAI は4月23日に GPT-5.5 を公開し、「Spud」というコードネームで、自律的なマルチステップ作業にこれまでで最も優れたシステムだと位置づけている。

GPT-5.5 のエージェント的コーディング強化

このリリースは、TechCrunch や Fortune が伝えるところによると、Anthropic が [Claude Opus 4.7] を一般提供として[発表]してからちょうど1週間後に[行われ]、エージェント向けワークロードでの正面衝突の構図となった。

GPT-5.5 は、計画を立て、ツールを実行し、自身の出力を検査し、継続的なプロンプトなしに反復できるよう設計されている。

社長の Greg Brockman は記者との電話会見で、これを「新しいクラスの知能」と呼び、「よりエージェント的で直感的なコンピューティング」への一歩だと位置づけた。

このモデルは ChatGPT Plus、Pro、Business、Enterprise に順次展開され、より高性能な Pro 版も提供される。API 料金は、100万トークンのコンテキストウィンドウの範囲で、入力トークン100万あたり5ドル、出力トークン100万あたり30ドルからとなっている。

Opus 4.7 とのベンチマーク差

VentureBeat が[最先端]と評価した OpenAI 自身の数値によると、14の評価指標のうち多くで GPT-5.5 がトップとなり、Terminal-Bench 2.0 では82.7%を記録し、Opus 4.7 の69.4%を大きく上回った。

FrontierMath Tier 1〜3 では、新モデルは51.7%で、Anthropic のフラッグシップである Opus 4.7 の43.8%より高スコアとなった。

コンピュータ利用関連のスコアはより僅差で、OSWorld-Verified では GPT-5.5 が78.7%、Opus 4.7 が78.0%だったが、ブラウジング性能では GPT-5.5 Pro が90.1%と、Opus 4.7 の79.3%を大きく引き離した。

一方で、レビューでは依然として、Opus 4.7 のほうがリサーチライティングの品質や指示追従の厳密さに優れ、約3.75メガピクセル相当の高解像度ビジョン機能を持つと評価されている。

リリースサイクルの[短縮]も続いている。GPT-5.5 は GPT-5.4 からわずか6週間後の登場だ。Anthropic は2月に Opus 4.6 を出した後に Opus 4.7 を投入し、一方で Google は同じエンタープライズ領域で Gemini 3.1 Pro を維持している。

次に読む: TRON Connects $85B USDT Network To LI.FI In Cross-Chain DeFi Push