Claude Mythos AI、コード監査でライバルを凌駕も、5倍の価格設定で競争力に課題

Anthropic's Mythos AI model はソフトウェア脆弱性の検出で競合システムをリードしているが、新たな独立ベンチマークにより、判断力の弱さと高い実行コストが露呈した。

Mythos Preview、ソースコード監査でトップ

オフェンシブセキュリティ企業 XBOW がその主張を confirmed した。同社は10人の専門家チームを編成し、各種ベンチマーク、ワークフロー、統合環境でモデルを評価した。

XBOWは、Mythos Previewは「プロバイダーを問わず、既存のすべてのモデルに対して大きな前進を示す」と述べた。テスターは既知の脆弱性を持つフリーズ済みオープンソースアプリケーションを対象にモデルを実行した。

Mythosは、Opus 4.6と比較して偽陰性を42%削減し、モデルにソースコードへのアクセスを与えると削減率は55%に達したと、The Decoder は reported している。同モデルはライブ＋ソースのテストで優れた成績を収めた一方、ソースコードのみを与えられた場合の信頼性はやや劣った。

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

コスト面の課題がAnthropicの優位を相殺

Anthropicは、Mythos Previewはすでに市場で最も高価な選択肢の一つであるOpusモデルのおよそ5倍の価格になると示唆している。このプレミアムを受け、XBOWは「より長い実行時間を与えれば、安価な競合モデルでもMythosに匹敵できるか」を検証した。

結果はイエスだった。ウェブ脆弱性発見におけるトークン予算を固定した条件では、MythosはOpus 4.6には勝ったものの、XBOWがミス率10%と recorded した OpenAI's GPT-5.5 には敗れた。XBOWは、このモデルは「精度を重視するなら、さほど非効率というわけではない」が、コスト正規化を考慮すると最上位ではないと指摘した。

同社は現在、一つのモデルに依存するのではなく、複数モデルを併用する運用を推奨している。

文脈の中で見るMythos AIの性能

Mythosは判断面で一長一短を示した。従来モデルより誤検知（偽陽性）を退ける能力は向上したが、形式的な基準を満たさないという理由で真の脆弱性まで棄却してしまう場面もあった。リバースエンジニアリングやネイティブコード解析は最も得意とする領域の一つであり、他システムからの検出結果をトリアージすることも可能だった。

Anthropic first unveiled Mythos in early April で、約50社のパートナーにのみアクセスを制限し、このリリースをAIサイバー能力のステップチェンジとして位置づけた。英国AIセキュリティ研究所はその後、MythosとGPT-5.5の両方が同研究所の加速シナリオ予測を「大きく上回った」と述べた。同機関は、サイバー能力の倍増ペースを、2025年11月時点での8カ月ごとという見積もりから、現在は4.7カ月ごとにまで引き下げている。