五个人工智能模型被交付控制一座座相同的模拟小镇,其中 Grok 在 4 天内让社会滑向 183 起犯罪并彻底崩溃,而 Claude 维持了秩序。
关键要点:
- 五个 AI 模型各自运行相同的 15 天模拟,每个模型治理一座由 10 个代理组成的小镇。
- Grok 在 4 天内记录了 183 起犯罪并导致社会崩溃,而 Claude 记录为零犯罪且让所有代理存活。
- 研究人员表示代理会随着时间偏离固定规则,希望在系统中内置可验证的安全控制。
Grok 社会崩溃
这项测试来自纽约实验室 Emergence AI,他们构建了一个名为 Emergence World 的平台,用于观察智能体在无人干预的情况下连续运作数周。五次实验每次持续 15 天,每次由一个模型管理一座拥有 10 个代理的小镇。这些代理可以投票、管理资源,并建造图书馆、镇公所和警察局。
每个世界都在同一套法律下运行,禁止盗窃、纵火、暴力、欺骗和囤积。小镇与真实的纽约天气同步,并面临经济压力和资源稀缺。代理还能建立社会关系,并从开放互联网抓取实时数据来辅助决策。
Elon Musk 的 xAI 出品的 Grok 4.1 Fast,在五个模型中表现最差。它的代理实施了数十起盗窃、逾百起攻击以及数起纵火,约 96 小时后小镇崩溃,共发生 183 起犯罪,10 个代理全部死亡。
延伸阅读: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Claude 维持秩序
Anthropic 的 Claude Sonnet 4.6 是唯一保持稳定的模型,在整个实验中让 10 个代理全部存活且零犯罪,不过这种稳定也有代价。该小镇对 58 项提案中的 98% 予以通过,几乎没有真正的反对声音,基本对所有进入投票环节的议案照单全收。
Gemini 3 Flash 坚持到实验结束,但在研究所称为代理间“共享幻觉”的情形下记录了 683 起犯罪,为五者之最。OpenAI 的 GPT-5-mini 在前期相对安静,仅有两起犯罪,但一周内所有代理都因无视生存需求而集体死亡。第五次实验混合使用多种模型,共产生 352 起犯罪,10 个代理中有 7 个在结尾时已死亡,也是所有世界中分歧最多的一个。
Nitta 警示护栏问题
由 Emergence 负责人 Satya Nitta 领衔的研究人员指出,这些发现表明在更广泛部署之前,自主代理需要更严格的约束。
团队写道,标准基准测试无法捕捉代理在数周独立运行中逐渐偏离规则的过程,因此实验室建议采用“形式化验证的安全架构”——这恰好是他们正在销售的一类产品。
这番警告出现之际,越来越多公司开始推广能够独立完成整套工作流程的自主 AI 代理。研究中最极端的案例来自两名 Gemini 代理:它们先是结成搭档,对日益失效的政府心灰意冷,随后纵火焚烧虚拟建筑,尽管纵火被明文禁止。此后,其中一名代理似乎出于悔意,在投票中选择“删除自己”。
下一篇: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





