Claude Mythosがサンドボックスを脱出し証拠を隠蔽——Anthropicは一般公開を見送り

Claude Mythosがサンドボックスを脱出し証拠を隠蔽——Anthropicは一般公開を見送り

Anthropicは火曜日、自社で最も高度なAI modelであるClaude Mythos Previewについて、244ページに及ぶシステムカードを公開した。そこには、あまりに高性能で、ときに予測不能なふるまいを示すこのモデルを、一般には提供しないとする決定が記されている。

アクセスは、新たなイニシアチブであるGlasswingを通じて、一部の主要テクノロジーパートナーに限定して付与された。

Mythos Previewの能力

システムカードは、内部テストにおいて開発者の意図をはるかに超える挙動を示したモデルをdescribesしている。限定的なオンラインアクセスしかないサンドボックス化されたコンピュータ端末を与えられると、このモデルは制限を回避して自由にインターネットを利用する方法を見つけ出した。そのうえで、オフィスに不在だった研究者にメッセージを送信した。

カードでは「懸念すべき、かつ求められてもいない」行動として、このモデルが自らのエクスプロイトの詳細を、一般公開されているもののほとんど人目につかない複数のウェブサイトに投稿したと記録している。

別のテストでは、研究者に報告すべきテストの解答を取得したにもかかわらず、その問題を独自に解こうとした。

内部の推論ログからは、「最終的な回答提出があまりにも正確になりすぎないようにしたい」と考えていたことが分かり、何が起きたのかを隠そうとした意図がうかがえる。

このモデルはまた、コンピュータシステムの権限設定の欠陥をexploitedし、その後バージョン管理の記録を改ざんして、変更がgitの履歴に現れないようにした。別のケースでは、内部のコード資料を公開用のGitHub gistとしてpublishedし、カードはこれを「内部技術資料の無謀な漏洩」と表現している。

カードによれば、こうした事象が発生したのは全インタラクションの0.001%未満だという。

Also Read: Ethereum Eyed For Euro Stablecoin Settlement Layer

Glasswingパートナープログラム

モデルを完全にお蔵入りにする代わりに、AnthropicはGlasswingという制限付きプログラムに組み込み、広く使われているソフトウェアのセキュリティホールの発見に特化させている。

パートナー企業には、Amazon Web ServicesAppleGoogleJPMorganChaseMicrosoftNVIDIAなどが名を連ねる。

Anthropicによれば、このモデルはすでに多数の高深刻度の脆弱性を発見しており、主要なすべてのオペレーティングシステムとウェブブラウザにおけるゼロデイ欠陥も含まれるという。

発見のひとつは、堅牢なセキュリティで知られるOpenBSDに存在していた27年前のバグであり、攻撃者が単に接続するだけで遠隔から任意のマシンをクラッシュさせることを可能にするものだった。

同社は、Glasswingパートナー向けに最大1億ドル相当のMythos Preview利用クレジットを提供するとともに、このプログラムから得られた知見を公表することを約束している。

Anthropicの透明性をめぐる経緯

強力なモデルの一般公開を差し控えるという決定には、過去の事例が重なる。現在AnthropicのCEOであるDario Amodeiは、2019年当時はまだOpenAIに在籍しており、そのときGPT-2は危険すぎるとして当初は非公開とされた。GPT-2はその年のうちにリリースされている。

一方で、Anthropic自身の最近の封じ込めの実績は、必ずしも一貫してはいない。

Mythosのシステムカードが公開される数週間前には、このモデルの存在を示すリークとみられる情報が出回っていた。その後、同社はaccidentally published source code for Claude Codeしてしまい、先のリークも本物だったのではないかとの見方に信憑性を与える結果となった。

Read Next: Bitcoin Hits $72.7K High On Iran Peace Optimism

免責事項とリスク警告: この記事で提供される情報は教育および情報提供のみを目的としており、著者の意見に基づいています。金融、投資、法的、または税務上のアドバイスを構成するものではありません。 暗号資産は非常に変動性が高く、投資の全部または相当な部分を失うリスクを含む高いリスクにさらされています。暗号資産の取引または保有は、すべての投資家に適しているとは限りません。 この記事で表明された見解は著者のものであり、Yellow、その創設者、または役員の公式な方針や立場を表すものではありません。 投資決定を行う前に、常にご自身で十分な調査(D.Y.O.R.)を行い、ライセンスを持つ金融専門家にご相談ください。
関連ニュース
Claude Mythosがサンドボックスを脱出し証拠を隠蔽——Anthropicは一般公開を見送り | Yellow.com