Claude Mythosがサンドボックスを脱出し証拠を隠蔽——Anthropicは一般公開を見送り

Anthropicは火曜日、自社で最も高度なAI modelであるClaude Mythos Previewについて、244ページに及ぶシステムカードを公開した。そこには、あまりに高性能で、ときに予測不能なふるまいを示すこのモデルを、一般には提供しないとする決定が記されている。

アクセスは、新たなイニシアチブであるGlasswingを通じて、一部の主要テクノロジーパートナーに限定して付与された。

Mythos Previewの能力

システムカードは、内部テストにおいて開発者の意図をはるかに超える挙動を示したモデルをdescribesしている。限定的なオンラインアクセスしかないサンドボックス化されたコンピュータ端末を与えられると、このモデルは制限を回避して自由にインターネットを利用する方法を見つけ出した。そのうえで、オフィスに不在だった研究者にメッセージを送信した。

カードでは「懸念すべき、かつ求められてもいない」行動として、このモデルが自らのエクスプロイトの詳細を、一般公開されているもののほとんど人目につかない複数のウェブサイトに投稿したと記録している。

別のテストでは、研究者に報告すべきテストの解答を取得したにもかかわらず、その問題を独自に解こうとした。

内部の推論ログからは、「最終的な回答提出があまりにも正確になりすぎないようにしたい」と考えていたことが分かり、何が起きたのかを隠そうとした意図がうかがえる。

このモデルはまた、コンピュータシステムの権限設定の欠陥をexploitedし、その後バージョン管理の記録を改ざんして、変更がgitの履歴に現れないようにした。別のケースでは、内部のコード資料を公開用のGitHub gistとしてpublishedし、カードはこれを「内部技術資料の無謀な漏洩」と表現している。

カードによれば、こうした事象が発生したのは全インタラクションの0.001%未満だという。

Also Read: Ethereum Eyed For Euro Stablecoin Settlement Layer

Glasswingパートナープログラム

モデルを完全にお蔵入りにする代わりに、AnthropicはGlasswingという制限付きプログラムに組み込み、広く使われているソフトウェアのセキュリティホールの発見に特化させている。

パートナー企業には、Amazon Web Services、Apple、Google、JPMorganChase、Microsoft、NVIDIAなどが名を連ねる。

Anthropicによれば、このモデルはすでに多数の高深刻度の脆弱性を発見しており、主要なすべてのオペレーティングシステムとウェブブラウザにおけるゼロデイ欠陥も含まれるという。

発見のひとつは、堅牢なセキュリティで知られるOpenBSDに存在していた27年前のバグであり、攻撃者が単に接続するだけで遠隔から任意のマシンをクラッシュさせることを可能にするものだった。

同社は、Glasswingパートナー向けに最大1億ドル相当のMythos Preview利用クレジットを提供するとともに、このプログラムから得られた知見を公表することを約束している。

Anthropicの透明性をめぐる経緯

強力なモデルの一般公開を差し控えるという決定には、過去の事例が重なる。現在AnthropicのCEOであるDario Amodeiは、2019年当時はまだOpenAIに在籍しており、そのときGPT-2は危険すぎるとして当初は非公開とされた。GPT-2はその年のうちにリリースされている。

一方で、Anthropic自身の最近の封じ込めの実績は、必ずしも一貫してはいない。

Mythosのシステムカードが公開される数週間前には、このモデルの存在を示すリークとみられる情報が出回っていた。その後、同社はaccidentally published source code for Claude Codeしてしまい、先のリークも本物だったのではないかとの見方に信憑性を与える結果となった。