Claude Opus 4.8 が知能指数で首位も、ハッキング分野では Mythos が圧倒

Anthropic released its newest model, Claude Opus 4.8 が今週公開され、知能ベンチマークで僅差のトップとなった一方で、ソフトウェア・エクスプロイト生成では同社の制限付きシステム Mythos に大きく後れを取っている。

主要ポイント:

Claude Opus 4.8 は Artificial Analysis Intelligence Index で 61.4 を記録し、GPT-5.5（60.2）を僅差で上回った。

Anthropic の内部テストでは、Mythos が Firefox の標的に対して 70.8% で動作するエクスプロイトを生成したのに対し、Opus 4.8 は 8.8% にとどまった。

Mythos は審査済みの Project Glasswing パートナーのみに限定提供される一方、Opus 4.8 は前モデルと同じ価格で提供される。

Opus 4.8 のベンチマーク優位

同社は今週 Opus 4.8 をローンチし、その価格を入力トークン 100 万あたり 5 ドル、出力トークン 100 万あたり 25 ドルと設定し、以前の Opus 4.7 と同水準に据え置いた。

独立したテスターの報告によれば、このモデルは 10 個の評価を集約した Artificial Analysis Intelligence Index で 61.4 を記録し、GPT-5.5（60.2）をわずかに上回って首位となった。Anthropic は今回のアップグレードを、名称が示唆するような世代交代ではなく、控えめで漸進的な改良だと位置づけている。

エージェント的コーディングでは、Opus 4.8 は大規模なコードリポジトリ内の実際のバグ修正をモデルに課すベンチマーク SWE-bench Pro で 69.2% を記録し、GPT-5.5 の 58.6% を上回った。

大学院レベルの科学問題では両システムはほぼ互角で、いずれも約 94% に達し、Opus 4.8 は従来モデルが遅れを取っていた広範な推論試験でも僅差でリードしている。

Mythos は最も困難なエンジニアリング作業で両者の上に位置し、同じコーディングベンチマークで 77.8% を記録し、コードとスクリーンショットを組み合わせたタスクでも大きなリードを示した。Anthropic は Mythos を Project Glasswing プログラムのもとで、審査された一部パートナーのみに制限して提供しており、一般販売はしていない。プレビュー版の料金はトークン 100 万あたり 25 ドルと 125 ドルで、Opus の 5 倍に相当する。

Mythos のサイバー領域での優位

最も大きな差が現れているのは攻撃的セキュリティの分野である。

セーフガードをオフにした状態では、Mythos は Anthropic の社内評価で Firefox の標的に対して 70.8% の割合で完全に動作するエクスプロイトを生成した一方、Opus 4.8 は 8.8% にとどまった。

オープンソースコードを用いた別のテストでは、Opus 4.8 は標的の 61.5% でスコアを出せず、Mythos のミス率 23.3% の 2 倍以上に達した。

Berkeley RDI が実施した公開クロスモデル試験では、各システムをそれぞれ専用のコーディングエージェントと組み合わせ、898 件の実世界の脆弱性に対して評価した。その結果、Mythos は GPT-5.5 の 120 件に対し 157 件の動作するエクスプロイトを生成した。

ただし、カーネルレベルのエクスプロイトに関しては依然として GPT-5.5 に分があり、この限定的な領域では GPT-5.5 が 22 件、Mythos が 12 件という結果になった。UK AI Security Institute も、専門的なサイバータスクにおいて GPT-5.5 を 71.4%、Mythos を 68.6% と、わずかに GPT-5.5 を上回ると評価している。

Anthropic は Mythos を 4 月に発表したが、そのきっかけとなったのは、このモデルが主要なオペレーティングシステムや主要ウェブブラウザのあいだでこれまで知られていなかった脆弱性を数千件発見したことであり、そのうち数百件は Firefox に集中していた。同社は、こうしたエクスプロイト生成能力が本来支援を想定していた防御側だけでなく、攻撃者にも同様に利用されうることを懸念し、一般公開を見送った。

次に読む: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

Claude Opus 4.8 が知能指数で首位も、 ハッキング分野では Mythos が圧倒

主要ポイント:

Opus 4.8 のベンチマーク優位

Mythos のサイバー領域での優位

Claude Opus 4.8 が知能指数で首位も、ハッキング分野では Mythos が圧倒