Claude Mythos AI、コード監査でライバルを凌駕も、5倍の価格設定で競争力に課題

Claude Mythos AI、コード監査でライバルを凌駕も、5倍の価格設定で競争力に課題

Anthropic's Mythos AI model はソフトウェア脆弱性の検出で競合システムをリードしているが、新たな独立ベンチマークにより、判断力の弱さと高い実行コストが露呈した。

Mythos Preview、ソースコード監査でトップ

オフェンシブセキュリティ企業 XBOW がその主張を confirmed した。同社は10人の専門家チームを編成し、各種ベンチマーク、ワークフロー、統合環境でモデルを評価した。

XBOWは、Mythos Previewは「プロバイダーを問わず、既存のすべてのモデルに対して大きな前進を示す」と述べた。テスターは既知の脆弱性を持つフリーズ済みオープンソースアプリケーションを対象にモデルを実行した。

Mythosは、Opus 4.6と比較して偽陰性を42%削減し、モデルにソースコードへのアクセスを与えると削減率は55%に達したと、The Decoder は reported している。同モデルはライブ+ソースのテストで優れた成績を収めた一方、ソースコードのみを与えられた場合の信頼性はやや劣った。

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

コスト面の課題がAnthropicの優位を相殺

Anthropicは、Mythos Previewはすでに市場で最も高価な選択肢の一つであるOpusモデルのおよそ5倍の価格になると示唆している。このプレミアムを受け、XBOWは「より長い実行時間を与えれば、安価な競合モデルでもMythosに匹敵できるか」を検証した。

結果はイエスだった。ウェブ脆弱性発見におけるトークン予算を固定した条件では、MythosはOpus 4.6には勝ったものの、XBOWがミス率10%と recorded した OpenAI's GPT-5.5 には敗れた。XBOWは、このモデルは「精度を重視するなら、さほど非効率というわけではない」が、コスト正規化を考慮すると最上位ではないと指摘した。

同社は現在、一つのモデルに依存するのではなく、複数モデルを併用する運用を推奨している。

文脈の中で見るMythos AIの性能

Mythosは判断面で一長一短を示した。従来モデルより誤検知(偽陽性)を退ける能力は向上したが、形式的な基準を満たさないという理由で真の脆弱性まで棄却してしまう場面もあった。リバースエンジニアリングやネイティブコード解析は最も得意とする領域の一つであり、他システムからの検出結果をトリアージすることも可能だった。

Anthropic first unveiled Mythos in early April で、約50社のパートナーにのみアクセスを制限し、このリリースをAIサイバー能力のステップチェンジとして位置づけた。英国AIセキュリティ研究所はその後、MythosとGPT-5.5の両方が同研究所の加速シナリオ予測を「大きく上回った」と述べた。同機関は、サイバー能力の倍増ペースを、2025年11月時点での8カ月ごとという見積もりから、現在は4.7カ月ごとにまで引き下げている。

Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%

免責事項とリスク警告: この記事で提供される情報は教育および情報提供のみを目的としており、著者の意見に基づいています。金融、投資、法的、または税務上のアドバイスを構成するものではありません。 暗号資産は非常に変動性が高く、投資の全部または相当な部分を失うリスクを含む高いリスクにさらされています。暗号資産の取引または保有は、すべての投資家に適しているとは限りません。 この記事で表明された見解は著者のものであり、Yellow、その創設者、または役員の公式な方針や立場を表すものではありません。 投資決定を行う前に、常にご自身で十分な調査(D.Y.O.R.)を行い、ライセンスを持つ金融専門家にご相談ください。
関連する研究記事
Claude Mythos AI、コード監査でライバルを凌駕も、5倍の価格設定で競争力に課題 | Yellow.com