Anthropic は、Mythos, its vulnerability-hunting AI モデルを一般に開放する意向だと述べているが、それはまだ存在しないセーフガードを構築してからになるとしている。
Key Points:
- Anthropic は、まず米国および同盟国政府へのアクセスを拡大した後、Mythos クラスのモデルを広く公開する計画だ。
- 同社は、自社を含め、悪用を止めるのに十分強力なセーフガードを構築できた企業は存在しないと認めている。
- Mythos は、1,000 以上のオープンソースプロジェクトで 23,000 件超の問題を検出しており、そのうち 6,202 件が重大またはクリティカルな欠陥と評価された。
Anthropic Mythos の公開計画
Anthropic は、限定アクセスのセキュリティプログラムである Project Glasswing のアップデート内でこの計画を確認した。別のレポートでは、そのタイムラインは不確実だと指摘されている。
同社はまず、米国および同盟国政府と連携してプログラムを拡大すると述べている。その後、「Mythos クラスのモデル」を近い将来により広く提供する予定だ。
Anthropic はリスクについて率直だ。同社は、どの企業も(自社も含めて)、モデルが悪用され深刻な被害を引き起こすことを防ぐのに十分なセーフガードを構築できていないと述べている。
それでも同社は、同様のツールが急速に広まると見ており、Mythos レベルのモデルは 6〜12 カ月以内に広く利用可能になると予測している。
Mythos は 4 月に公開された。Anthropic によると、テストでは以前の Claude モデルがほぼ 0 パーセントだったのに対し、72.4 パーセントの確率で実行可能なエクスプロイトを生成したという。
Also Read: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks
Mythos による脆弱性検出結果
デビュー以来、このモデルは 1,000 以上のオープンソースプロジェクトをスキャンし、そのうち 6,202 件が高リスクまたはクリティカルと評価された23,019 件の問題を検出した。
なかでも注目されたのは、数十億台のデバイスで使われる暗号ライブラリ wolfSSL の欠陥だ。これにより、攻撃者が証明書を偽造し、銀行やメールプロバイダをなりすますことが可能になっていたが、すでに修正されている。
報告の洪水は、本来修正を担う人々に負担をかけている。オープンソースのメンテナーたちは、報告量が自分たちの処理能力を上回っているとして、Anthropic に開示ペースを落とすよう求めている。
研究者たちは、より深刻なアンバランスを見ている。Anthropic は、バグを「見つける」ことが「修正する」ことよりはるかに簡単になったと主張し、メンテナーがバックログを優先順位付けできるよう支援するため、Open Source Security Foundation の Alpha-Omega プロジェクトと提携した。
Claude Mythos のシステムカードは、最終的には AI が防御側に有利に働くと予測しているものの、現時点では攻撃者が優位に立っている可能性を Anthropic も認めている。
Mythos was first revealed した際、Anthropic は Apple、Microsoft、Google を含む 50 を超える組織に対し、約 1 億ドル分の利用クレジットとともにアクセスを提供した。一方で、ソフトウェアの脆弱性を兵器化し得る能力があるとして、モデルを一般公開からは控えていた。
Read Next: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High





