Claude Mythos AI、コード監査で競合を上回るも 5倍の価格設定が足かせに

Claude Mythos AI、コード監査で競合を上回るも 5倍の価格設定が足かせに

Anthropic's Mythos AI model は、ソフトウェアの脆弱性発見で競合システムをリードしている一方、新たな独立ベンチマークにより、判断力の弱さと高い実行コストが露呈している。

Mythos Preview、ソースコード監査でトップ

攻撃的セキュリティ企業 XBOW は、その主張を確認した。同社は10人の専門家チームを編成し、ベンチマーク、ワークフロー、統合面でモデルを評価した。

XBOWは、Mythos Previewは「プロバイダーを問わず、既存のあらゆるモデルを大きく上回る」と述べた。テスターは、既知の脆弱性を含む固定されたオープンソースアプリケーションを対象にモデルを実行した。

Mythosは、Opus 4.6と比較して偽陰性を42%削減し、モデルにソースコードへのアクセスを与えると削減率は55%に達したと、The Decoderは報じている。モデルは、ライブ環境とソースコードを併用したテストで特に優秀な成績を示した一方、ソースコードのみを与えられた場合の信頼性はやや劣った。

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

コスト面の課題がAnthropicの優位性を弱める

Anthropicは、Mythos Previewの価格が、すでに市場で最も高価な選択肢の一つであるOpusモデルのおよそ5倍になる見込みであると示唆している。このプレミアムを受け、XBOWは、より安価な競合モデルに長めの実行時間を与えればMythosに匹敵できるかを検証した。

結果は「イエス」だった。ウェブ脆弱性発見のためのトークン予算を固定した条件では、MythosはOpus 4.6には勝利したが、XBOWがミス率10%と記録した OpenAI's GPT-5.5 に敗れた。XBOWは、精度を最優先するならばこのモデルは「それほど非効率ではない」としつつも、コストを正規化して比較すると最強というわけではないと指摘した。

同社は現在、一つのモデルに依存するのではなく、複数モデルを組み合わせて運用することを推奨している。

文脈の中で見るMythos AIの性能

Mythosは判断面で一長一短の結果を示した。従来モデルよりも誤検知を退ける能力は高まった一方で、形式的な基準を満たさない場合には真の脆弱性まで棄却してしまう場面も見られた。リバースエンジニアリングやネイティブコード解析は、最も優れたスキルに数えられ、競合システムから上がってきた検出結果をトリアージすることも可能だった。

Anthropic first unveiled Mythos in early April で、アクセスを約50社のパートナーに限定し、このリリースをAIサイバー能力におけるステップチェンジとして位置付けた。英国のAI Security Instituteはその後、MythosとGPT-5.5の双方が、自機関の加速予測を「大幅に上回った」と述べた。同機関は現在、サイバー能力が4.7カ月ごとに倍増すると見積もっており、2025年11月に提示していた「8カ月ごと」という以前の数字から下方修正している。

Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%

免責事項とリスク警告: この記事で提供される情報は教育および情報提供のみを目的としており、著者の意見に基づいています。金融、投資、法的、または税務上のアドバイスを構成するものではありません。 暗号資産は非常に変動性が高く、投資の全部または相当な部分を失うリスクを含む高いリスクにさらされています。暗号資産の取引または保有は、すべての投資家に適しているとは限りません。 この記事で表明された見解は著者のものであり、Yellow、その創設者、または役員の公式な方針や立場を表すものではありません。 投資決定を行う前に、常にご自身で十分な調査(D.Y.O.R.)を行い、ライセンスを持つ金融専門家にご相談ください。
関連する研究記事
Claude Mythos AI、コード監査で競合を上回るも 5倍の価格設定が足かせに | Yellow.com