Anthropicはセーフガードが追いつき次第、12カ月以内をめどにClaude Mythosを一般公開へ

Anthropicは、Mythos, its vulnerability-hunting AIモデルを一般公開する意向だと述べているが、それはまだ存在しないセーフガードを構築した後のみになるとしている。

Key Points:

Anthropicは、まず米国および同盟国政府へのアクセス拡大を行ったうえで、Mythosクラスのモデルを広く公開する計画だ。

同社は、自社を含め、悪用を阻止できるほど強力なセーフガードを構築できた企業は存在しないと認めている。

Mythosは1,000を超えるオープンソースプロジェクトで23,000件以上の問題を検出し、そのうち6,202件が高リスクまたはクリティカルと評価された。

Anthropic Mythosの公開計画

Anthropicは、限定アクセス型のセキュリティプログラムであるProject Glasswingのアップデートでこの計画をconfirmedしており、別の報告では具体的なタイムラインは不確実だと指摘されている。

同社はまず、米国および同盟国の政府と連携してプログラムを拡大すると述べた。その後、「Mythosクラスのモデル」を、近い将来により広範に公開する計画だ。

Anthropicはリスクについて率直だ。statedによれば、自社を含め、モデルの悪用とそれによる深刻な被害を確実に防ぐだけのセーフガードを構築できた企業は存在しないという。

それでも同社は、同様のツールが急速に広まると見ており、Mythosレベルのモデルは6〜12カ月以内に広く利用可能になると予測している。

Mythosは4月にdebutedした。Anthropicによると、テストにおいて、以前のClaudeモデルがほぼゼロだったのに対し、72.4%の確率で動作するエクスプロイトを生成したという。

Also Read: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks

Mythosによる脆弱性の発見

デビュー以来、このモデルは1,000を超えるオープンソースプロジェクトをスキャンし、その結果23,019 issuesを検出し、そのうち6,202件が高リスクまたはクリティカルな深刻度と評価された。

なかでも際立ったのは、何十億ものデバイスで使用されているwolfSSL暗号ライブラリの欠陥を発見したことだ。これにより、攻撃者が証明書を偽造し、銀行やメールプロバイダをなりすましできる可能性があったが、すでに修正されている。

報告の洪水は、問題を修正すべき人々に負担をかけている。オープンソースのメンテナーらは、開示件数が処理能力を超えているとして、Anthropicに開示ペースを落とすよう求めている。

研究者たちは、より深い不均衡を見ている。Anthropicは、バグを見つけることは今や修正することよりもはるかに容易になったと主張しており、メンテナーがバックログをトリアージできるよう支援するため、Open Source Security FoundationのAlpha-Omegaプロジェクトとpartneredした。

Claude Mythosのシステムカードは、最終的にはAIが防御側に有利に働くと予測しているが、現時点では攻撃者が優位に立つ可能性をAnthropicも認めている。

Mythos was first revealedした際、AnthropicはApple、Microsoft、Googleを含む50以上の組織に対し、約1億ドル相当の利用クレジットとともにアクセスを提供した。一方で、ソフトウェアの脆弱性を兵器化できる能力があるとして、一般公開は見送っていた。