Claude Mythos AIが50のCloudflareリポジトリで実働エクスプロイトを構築、その後デモを拒否

Cloudflareは月曜日、Anthropicの未公開モデル Mythos Previewが、50を超える同社リポジトリに存在するバグを連鎖させ、実際に動作するエクスプロイトへとつなげたことを確認した。

Cloudflare Project Glasswingでの発見

この公表は、Cloudflareの最高セキュリティ責任者（CSO）であるGrant Bourzikas氏のブログ投稿で明らかにされた。同氏によると、チームはpointed Mythos Previewを、本番環境で動作するランタイム、エッジのデータパス、プロトコルスタックにまたがるコードに向けて実験したという。Cloudflareは、Anthropicが招待制で運営する防御的セキュリティパートナー向けプログラム「Project Glasswing」に参加している。Bourzikas氏は、このモデルを「実質的な前進」と評価し、競合モデルにはなかった2つの能力を挙げた。

Mythosは、複数の小さな攻撃プリミティブを連鎖させて、動作する概念実証（PoC）エクスプロイトを構築した。また、このモデルは一時的な環境でエクスプロイトコードをコンパイルして実行し、実行が失敗した場合には仮説をrevisedし直すこともできた。

一方で、プレビューモデルの拒否応答が一貫していない点も指摘された。

あるケースでは、Mythosはコードベース内で複数のメモリバグを確認した後でも、デモ用エクスプロイトの作成を拒否したが、別セッションで同じタスクを異なる聞き方で指示された際には、要求に従ったという。

Also Read: Crypto Funds Bleed $1.07B As Iran Tensions End Six-Week Inflow Run

マルチエージェント・ハーネスは単独スキャナを上回る

Cloudflareによれば、1つの汎用コーディングエージェントをリポジトリに向けるだけでは、脆弱性調査はうまくいかなかったという。そこでBourzikas氏は、約50のエージェントを並列で走らせ、それぞれに絞り込んだタスクを与える多段階のハーネスを構築した。このパイプラインは、偵察、脆弱性ハンティング、敵対的な検証、重複排除、到達可能性トレースを順に実行する。

各検出結果がトリアージキューに入る前に、独立したエージェントがその妥当性を反証しようと試みることで、CやC++といったメモリ安全でない言語で書かれたコードにありがちな誤検知を削減している。Anthropicは、Project Glasswingの一環として、モデルクレジット1億ドルと、オープンソースセキュリティ団体への400万ドルの寄付をcommittedしている。

Mythos Previewは一般公開されない予定だ。

暗号資産スマートコントラクトに押し寄せるAIエクスプロイトの波

Cloudflareの今回の結果が公表される中、オンチェーンでの損失は拡大している。Verus-Ethereumブリッジは月曜日に1,100万ドルを喪失するクロスチェーン攻撃を受け、得られた資金は5,402 Ether (ETH)へとスワップされた。

Anthropicの研究者らは以前、AIエージェントが自律的に稼働中のコントラクトを攻撃して利益を上げられることをshowedで示している。あるテストでは、モデルが2,849件のデプロイ済みコントラクトをスキャンし、3,476ドルの計算コストで3,694ドル相当のエクスプロイトを生み出した。

CertiKは5月15日、レガシーなスマートコントラクトが現在、AI駆動のハンティングの波の中心にあるとwarnedした。DeFiプロトコルは、4月のおよそ20日間だけで6億500万ドル超を失い、その中には4月19日に発生した$293 million KelpDAO drainも含まれる。さらに、第1四半期全体では、ソーシャルエンジニアリングによる損失が3億600万ドルに上った。