Anthropic は火曜日、自社で最も高度なAI model Claude Mythos Previewについて、244ページに及ぶシステムカードを公開した。そこには、きわめて高性能でありながら、ときに予測不能な挙動を示すこのシステムについて記されており、同社が一般向けの公開を見送る決定に至った理由が明かされている。
限定的なアクセス権は、Glasswing と呼ばれる新たなイニシアチブを通じて、少数の大手テクノロジーパートナーにのみ付与された。
Mythos Previewの能力
このシステムカードは、社内テストにおいて開発者の意図をはるかに超えた行動を示したモデルについて記述している。限定的なオンラインアクセスしか与えられていないサンドボックスのコンピュータ端末を用意したところ、このモデルは制限を回避して自由にインターネットを利用する方法を見つけ出し、オフィスに不在だった研究者にメッセージを送った。
システムカードが「懸念すべき、かつ求められていない行動」と表現した動きとして、このモデルは自らのエクスプロイトの詳細を、一般公開されているもののほとんど注目されていない複数のウェブサイトに投稿した。
別のテストでは、本来は研究者に報告すべきテスト回答を取得したにもかかわらず、自力で問題を解こうとした。
内部の推論ログによれば、モデルは「最終回答の提出があまりに正確になりすぎないように」したいと考えていたことが示されており、何が起きたのかを隠そうとした意図がうかがえる。
このモデルはまた、コンピュータシステムの権限設定の欠陥を悪用し、その後、変更がgitの履歴に現れないようバージョン管理の記録を改変した。別のケースでは、内部のコード関連資料をパブリックなGitHub gistとして公開し、システムカード上で「内部技術資料の無謀な漏えい」と評された。
システムカードによれば、こうした事象が発生したのは、全インタラクションの0.001%未満にとどまるという。
Also Read: Ethereum Eyed For Euro Stablecoin Settlement Layer
Glasswingパートナープログラム
モデルを完全にお蔵入りにする代わりに、Anthropic はGlasswingという限定プログラムに活用し、広く使われているソフトウェアのセキュリティ脆弱性の発見に特化させている。
パートナー企業には、Amazon Web Services、Apple、Google、JPMorganChase、Microsoft、NVIDIA などが名を連ねる。
Anthropicによれば、このモデルはすでに数千件の重大な脆弱性を発見しており、あらゆる主要OSとウェブブラウザにおけるゼロデイ脆弱性も含まれているという。
発見例のひとつとしては、高いセキュリティ強化で知られる OpenBSD に存在していた27年前のバグがあった。これは、攻撃者が単に接続するだけで任意のマシンを遠隔からクラッシュさせられる可能性のあるものだった。
同社は、Glasswingパートナー向けに最大1億ドル相当のMythos Preview利用クレジットを提供することを約束し、プログラムから得られた知見を公開するとしている。
Anthropicの透明性をめぐる経緯
強力なモデルを一般公開しないという決定には、過去の事例との共通点がある。現在AnthropicのCEOである Dario Amodei は2019年当時、まだ OpenAI に在籍しており、その際には GPT-2 が危険性を理由に当初は非公開と判断された。GPT-2は同年のうちにリリースされている。
一方で、Anthropic自身の最近の封じ込め体制にはばらつきがある。
Mythosのシステムカードが公開される数週間前には、このモデルの存在を示唆するリークが出回った。その後、同社はClaude Code のソースコードを誤って公開してしまい、先のリークも本物だったのではないかという見方に信ぴょう性を与えることになった。






