Claude Mythos 対 GPT-5.5:ゲート付き Anthropic モデルが 9 テスト中 6 つで勝利

Claude Mythos 対 GPT-5.5:ゲート付き Anthropic モデルが 9 テスト中 6 つで勝利

OpenAI released GPT-5.5 は水曜日に公開されたが、新しいベンチマークデータによると、Anthropic's gated Claude Mythos Preview は依然として、直接比較可能な 9 テスト中 6 テストでリードしている。

GPT-5.5 のベンチマークスコア

GPT-5.5 は 4 月 23 日に ChatGPT と Codex にarrived し、価格は入力トークン 100 万あたり 5 ドル、出力は 30 ドルと、前世代の 2 倍に設定された。

このモデルは Terminal-Bench 2.0 で scored 82.7% を記録し、唯一明確に勝利したこのベンチマークで Mythos を 0.7 ポイント上回った。

Mythos, which Anthropic withheld from public release over cybersecurity concerns は、SWE-bench Pro で 77.8% を達成し、58.6% の GPT-5.5 をリードしている。

また、ツールなしの Humanity's Last Exam でも GPT-5.5 を tops し、56.8% を記録して 41.4% を上回った。ゲート付きモデルはさらに、CyberGym、OSWorld-Verified、およびロングコンテキストの GraphWalks タスクでもリードしている。

Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report

アナリストの但し書きには意味がある

両ラボとも互いのモデルを直接ベンチマークしていないため、この比較は依然として厳密ではない。OpenAI は公開比較対象として Claude Opus 4.7 をchose した一方で、Anthropic の 245 ページにわたるシステムカードは Mythos を GPT-5.4 と比較している。

テストハーネスも異なる。OpenAI は Terminal-Bench で Codex CLI セットアップを用いたのに対し、Anthropic の Terminus-2 スキャフォールドは、Terminal-Bench 2.1 のタイミングルールの下で Mythos を 92.1% まで押し上げた。

Anthropic が Mythos をゲートするという 4 月 7 日の決定は、欧州委員会との会合を招き、同モデルがサイバーリスクを突き崩しかねないとして、イングランド銀行総裁からの警告も呼び起こしたと報じられている。

Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

免責事項とリスク警告: この記事で提供される情報は教育および情報提供のみを目的としており、著者の意見に基づいています。金融、投資、法的、または税務上のアドバイスを構成するものではありません。 暗号資産は非常に変動性が高く、投資の全部または相当な部分を失うリスクを含む高いリスクにさらされています。暗号資産の取引または保有は、すべての投資家に適しているとは限りません。 この記事で表明された見解は著者のものであり、Yellow、その創設者、または役員の公式な方針や立場を表すものではありません。 投資決定を行う前に、常にご自身で十分な調査(D.Y.O.R.)を行い、ライセンスを持つ金融専門家にご相談ください。
Claude Mythos 対 GPT-5.5:ゲート付き Anthropic モデルが 9 テスト中 6 つで勝利 | Yellow.com