OpenAI released GPT-5.5 は水曜日に公開されたが、新しいベンチマークデータによると、Anthropic's gated Claude Mythos Preview は依然として、直接比較可能な 9 テスト中 6 テストでリードしている。
GPT-5.5 のベンチマークスコア
GPT-5.5 は 4 月 23 日に ChatGPT と Codex にarrived し、価格は入力トークン 100 万あたり 5 ドル、出力は 30 ドルと、前世代の 2 倍に設定された。
このモデルは Terminal-Bench 2.0 で scored 82.7% を記録し、唯一明確に勝利したこのベンチマークで Mythos を 0.7 ポイント上回った。
Mythos, which Anthropic withheld from public release over cybersecurity concerns は、SWE-bench Pro で 77.8% を達成し、58.6% の GPT-5.5 をリードしている。
また、ツールなしの Humanity's Last Exam でも GPT-5.5 を tops し、56.8% を記録して 41.4% を上回った。ゲート付きモデルはさらに、CyberGym、OSWorld-Verified、およびロングコンテキストの GraphWalks タスクでもリードしている。
Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report
アナリストの但し書きには意味がある
両ラボとも互いのモデルを直接ベンチマークしていないため、この比較は依然として厳密ではない。OpenAI は公開比較対象として Claude Opus 4.7 をchose した一方で、Anthropic の 245 ページにわたるシステムカードは Mythos を GPT-5.4 と比較している。
テストハーネスも異なる。OpenAI は Terminal-Bench で Codex CLI セットアップを用いたのに対し、Anthropic の Terminus-2 スキャフォールドは、Terminal-Bench 2.1 のタイミングルールの下で Mythos を 92.1% まで押し上げた。
Anthropic が Mythos をゲートするという 4 月 7 日の決定は、欧州委員会との会合を招き、同モデルがサイバーリスクを突き崩しかねないとして、イングランド銀行総裁からの警告も呼び起こしたと報じられている。
Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move






