Claude Opus 4.8 がインテリジェンス指数で首位に立つ一方、 ハッキング分野では Mythos が支配

Claude Opus 4.8 がインテリジェンス指数で首位に立つ一方、 ハッキング分野では Mythos が支配

Anthropic released its newest model, Claude Opus 4.8、今週発表され、インテリジェンスベンチマークで僅差のトップとなったものの、ソフトウェアエクスプロイトの生成では同社の制限付きシステム Mythos に後れを取っている。

主なポイント:

  • Claude Opus 4.8 は Artificial Analysis Intelligence Index で 61.4 を記録し、GPT-5.5(60.2)を僅差で上回った。
  • Anthropic の社内テストでは、Mythos は Firefox の標的の 70.8% で動作するエクスプロイトを生成したのに対し、Opus 4.8 は 8.8% にとどまった。
  • Mythos は審査済みの Project Glasswing パートナーのみに限定される一方、Opus 4.8 は前世代と同価格で提供される。

Opus 4.8 のベンチマーク優位性

同社は今週 Opus 4.8 をリリースし、料金を input 100 万トークンあたり 5 ドル、output 100 万トークンあたり 25 ドルに設定、従来の Opus 4.7 と同水準に据え置いた。

独立系テスターの 報告 によると、このモデルは現在、10 種類の評価を集約した Artificial Analysis Intelligence Index で 61.4 を記録し、GPT-5.5 の 60.2 を僅差で上回っている。Anthropic は、このアップグレードを名前から連想される世代交代的な飛躍ではなく、控えめで漸進的な一歩と位置付けている。

エージェント的なコーディングにおいて、Opus 4.8 は大規模なコードリポジトリ内の実際のバグ修正を求めるベンチマーク SWE-bench Pro で 69.2% を記録、GPT-5.5 の 58.6% を上回った。

大学院レベルの科学に関する問題では両者はほぼ互角で、どちらも 94% 前後のスコアとなり、Opus 4.8 は従来モデルが遅れを取っていた広範な推論試験でも僅差でリードしている。

Mythos は、最も困難なエンジニアリング作業では両者を上回り、同じコーディングベンチマークで 77.8% を記録し、コードとスクリーンショットを組み合わせたタスクでもより大きなリードを示した。Anthropic は Mythos を Project Glasswing プログラムのもとで審査済みパートナーに限定 し、一般販売は行っていない。プレビュー版には 100 万トークンあたり 25 ドルと 125 ドル を課金しており、Opus の 5 倍の料金となる。

関連記事: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Mythos のサイバー分野での優位

最も大きな差が表れているのは攻撃的セキュリティの領域だ。

安全策をオフにした状態で、Mythos は Anthropic 独自の評価において Firefox を標的とするテストの 70.8% で完全に動作するエクスプロイトを生成した。これに対し、Opus 4.8 は 8.8% にとどまった。

オープンソースコードから抽出した別のテストでは、Opus 4.8 は標的の 61.5% でスコアを出せず、Mythos の 23.3% という失敗率の 2 倍以上となった。

Berkeley RDI が実施した公開クロスモデル試験では、898 件の実世界の脆弱性について各システムを自前のコーディングエージェントと組み合わせて評価した結果、Mythos は 157 個の動作するエクスプロイトを生成し、GPT-5.5 の 120 個を上回った。

それでもカーネルレベルのエクスプロイトに関しては GPT-5.5 が優位を保ち、この限られた領域では GPT-5.5 が 22 件、Mythos が 12 件という結果だった。UK AI Security Institute は、専門的なサイバータスクにおいて GPT-5.5 を 71.4%、Mythos を 68.6% と評価し、わずかに GPT-5.5 を上に置いている。

Anthropic は 4 月に Mythos を発表したが、その背景には、このモデルが主要なオペレーティングシステムやあらゆる有力ブラウザで、これまで知られていなかった脆弱性を数千件発見したことがある(Firefox だけでも数百件が報告された)。同社は、そのエクスプロイト作成能力が、本来支援を意図した防御側と同じように攻撃者にも利用され得ることを懸念し、一般公開を見送った。

次に読む: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

免責事項とリスク警告: この記事で提供される情報は教育および情報提供のみを目的としており、著者の意見に基づいています。金融、投資、法的、または税務上のアドバイスを構成するものではありません。 暗号資産は非常に変動性が高く、投資の全部または相当な部分を失うリスクを含む高いリスクにさらされています。暗号資産の取引または保有は、すべての投資家に適しているとは限りません。 この記事で表明された見解は著者のものであり、Yellow、その創設者、または役員の公式な方針や立場を表すものではありません。 投資決定を行う前に、常にご自身で十分な調査(D.Y.O.R.)を行い、ライセンスを持つ金融専門家にご相談ください。
関連する研究記事
Claude Opus 4.8 がインテリジェンス指数で首位に立つ一方、 ハッキング分野では Mythos が支配 | Yellow.com