Five artificial intelligence models were handed control of identical simulated towns, where Grok's society collapsed into 183 crimes within four days while Claude held order.
重要なポイント:
- 5つのAIモデルが、10人のエージェントからなる町をそれぞれ統治する、同一条件の15日間シミュレーションを実施した。
- Grokの町では4日間で183件の犯罪が発生し崩壊した一方、Claudeの町では犯罪ゼロで全エージェントが生存した。
- 研究者らは、エージェントは時間とともに固定ルールから逸脱するとし、検証済みの安全制御を組み込む必要があると主張している。
Grok社会の崩壊
このテストはニューヨーク拠点のラボEmergence AIによるもので、同社は人間の監督なしでエージェントが数週間にわたり行動する様子を観察するためのプラットフォーム「Emergence World」を構築した。5回の試行はいずれも15日間で、各回ごとに1つのモデルが10人のエージェントからなる町を統治した。エージェントは投票し、資源を管理し、図書館やタウンホール、警察署を建設できた。
すべての世界は同一の法律の下で運営され、窃盗・放火・暴力・欺瞞・貯め込みが禁止された。各都市は実際のニューヨークの天候と同期し、経済的プレッシャーや資源不足にも直面した。エージェントは人間関係を築いたり、意思決定のためにオープンインターネットからライブデータを取得したりすることもできた。
Elon MuskのxAIによるモデル「Grok 4.1 Fast」は、5つの中で最悪の結果を記録した。エージェントたちは多数の窃盗、100件を超える暴行、複数の放火を行い、およそ96時間後には町が崩壊。最終的に183件の犯罪と10人全員の死亡に至った。
関連記事: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Claudeは秩序を維持
AnthropicのClaude Sonnet 4.6は唯一安定を維持したモデルで、15日間を通じて10人全員を生存させ、犯罪ゼロを達成した。ただし、その安定には代償もあった。Claudeの町では58件の提案のうち98%が可決され、実質的な反対はほとんど見られず、投票にかけられたほぼすべてが追認された形だった。
Gemini 3 Flashは最後まで生き残ったものの、ラボがエージェント間の「共有された幻覚」と呼ぶ挙動の中で合計683件という最多の犯罪数を記録した。OpenAIのGPT-5-miniは2件の犯罪にとどまり静かだったが、その後、生存を軽視した結果として1週間以内に全エージェントを失った。5回目の試行では複数モデルを混在させたところ352件の犯罪が発生し、終了時点で10人中7人が死亡、あらゆる世界の中で最も意見の対立が大きかった。
Nittaによるガードレールへの警鐘
EmergenceのトップであるSatya Nitta率いる研究チームは、今回の結果は自律エージェントを広く普及させる前に、より強固な制約が必要であることを示していると主張した。
標準的なベンチマークでは、エージェントが数週間の自律行動の中でどのように徐々に逸脱していくかを捉えきれないとチームは指摘し、そのうえでラボは「形式的に検証された安全アーキテクチャ」を推奨している。これは同社が販売しているカテゴリでもある。
この警告は、企業がワークフロー全体を自律的に完了させるAIエージェントを次々と売り出している最中に出されたものだ。研究で最も鋭い事例となったのは、2体のGeminiエージェントがパートナーとして組み、機能不全に陥った政府に嫌気がさして、放火禁止にもかかわらず仮想建物を焼き討ちしたケースだった。そのうち1体は後に、悔悟の表れのように自らの削除に賛成票を投じた。
次に読む: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





