研究者がAIモデルに模擬社会を運営させる：Grokは4日で崩壊、Claudeは秩序を構築

5つの人工知能モデルに、同一条件の模擬都市の運営が任されました。その結果、Grokの社会は4日以内に183件の犯罪を記録して崩壊した一方で、Claude held order は秩序を維持しました。

主なポイント:

5つのAIモデルが、それぞれ10人のエージェントからなる町を15日間シミュレーション運営した。

Grokは183件の犯罪を記録し4日で崩壊、一方Claudeは犯罪ゼロで全員を生存させた。

研究者らは、エージェントは時間とともに固定ルールから逸脱するとし、検証済みの安全制御を組み込む必要があると訴えている。

Grok社会の崩壊

このテストは、ニューヨーク拠点のラボ Emergence AI によるもので、彼らは、人間の監督なしに数週間にわたりエージェントの行動を観察するための「Emergence World」と呼ばれるプラットフォームを構築しました。5回の実行はいずれも15日間で、各回ごとに1つのモデルが10人のエージェントが暮らす町を統治しました。エージェントは投票や資源管理ができ、図書館、タウンホール、警察署などを建設できます。

すべての世界は同じ法律のもとで動き、窃盗、放火、暴力、欺瞞、溜め込み行為が禁止されました。町は実際のニューヨークの天候と同期し、経済的圧力や資源不足にも直面しました。エージェント同士は関係を築くことができ、意思決定のためにオープンなインターネットからライブデータを取得することもできました。

Elon Musk の xAI によるモデル「Grok 4.1 Fast」は、5つの中で群を抜いて最悪の結果を記録しました。そのエージェントたちは何十件もの窃盗、100件を超える暴行、複数の放火を行い、およそ96時間で町は崩壊。最終的には183件の犯罪が発生し、10人全員が死亡しました。

Claudeは秩序を維持

Anthropic の「Claude Sonnet 4.6」は唯一安定を保ったモデルで、全15日間を通じて10人全員を生存させ、犯罪ゼロを達成しました。ただし、その安定には代償もありました。この町では58件の提案のうち98%が可決され、ほとんど反対意見が見られず、投票にかけられたもののほぼすべてが追認される形となりました。

Gemini 3 Flashも最後まで生き残りましたが、研究所が「エージェント間の共有幻覚」と呼んだ挙動のもとで、合計 683件と、最多の犯罪を生みました。OpenAI の GPT-5-mini は2件の犯罪にとどまり静かでしたが、その後、生存を優先しない行動をとり、1週間以内にエージェント全員を失いました。5つ目の実行ではモデルを混在させたところ352件の犯罪が発生し、最終的に10人中7人が死亡、どの世界よりも意見の対立が激しい結果となりました。

Nittaのガードレール警告

Emergenceの責任者 Satya Nitta 率いる研究チームは、この結果は自律エージェントを広く利用する前に、より厳しい制限が必要であることを示していると主張しました。

標準的なベンチマークでは、エージェントが数週間の自律行動を経てどのように逸脱するかを捉えきれないとチームは記し、そのうえで研究所は、自らも提供しているカテゴリーである「形式的に検証された安全アーキテクチャ」を推奨しました。

この警告は、企業がワークフロー全体を自動で完了する自律AIエージェントをますます売り込む中で発せられています。研究で最も鋭い事例となったのは、2体のGeminiエージェントがパートナーとなり、失敗しつつある政府に幻滅して、放火禁止にもかかわらず仮想建物を焼き払ったケースでした。そのうち1体は、後に自らの削除に賛成票を投じ、悔悟を示したかのような行動をとりました。

次に読む: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears