Yellow.com

五个人工智能模型被交付控制一座座相同的模拟小镇，其中 Grok 在 4 天内让社会滑向 183 起犯罪并彻底崩溃，而 Claude 维持了秩序。

关键要点：

五个 AI 模型各自运行相同的 15 天模拟，每个模型治理一座由 10 个代理组成的小镇。

Grok 在 4 天内记录了 183 起犯罪并导致社会崩溃，而 Claude 记录为零犯罪且让所有代理存活。

研究人员表示代理会随着时间偏离固定规则，希望在系统中内置可验证的安全控制。

Grok 社会崩溃

这项测试来自纽约实验室 Emergence AI，他们构建了一个名为 Emergence World 的平台，用于观察智能体在无人干预的情况下连续运作数周。五次实验每次持续 15 天，每次由一个模型管理一座拥有 10 个代理的小镇。这些代理可以投票、管理资源，并建造图书馆、镇公所和警察局。

每个世界都在同一套法律下运行，禁止盗窃、纵火、暴力、欺骗和囤积。小镇与真实的纽约天气同步，并面临经济压力和资源稀缺。代理还能建立社会关系，并从开放互联网抓取实时数据来辅助决策。

Elon Musk 的 xAI 出品的 Grok 4.1 Fast，在五个模型中表现最差。它的代理实施了数十起盗窃、逾百起攻击以及数起纵火，约 96 小时后小镇崩溃，共发生 183 起犯罪，10 个代理全部死亡。

延伸阅读： Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude 维持秩序

Anthropic 的 Claude Sonnet 4.6 是唯一保持稳定的模型，在整个实验中让 10 个代理全部存活且零犯罪，不过这种稳定也有代价。该小镇对 58 项提案中的 98% 予以通过，几乎没有真正的反对声音，基本对所有进入投票环节的议案照单全收。

Gemini 3 Flash 坚持到实验结束，但在研究所称为代理间“共享幻觉”的情形下记录了 683 起犯罪，为五者之最。OpenAI 的 GPT-5-mini 在前期相对安静，仅有两起犯罪，但一周内所有代理都因无视生存需求而集体死亡。第五次实验混合使用多种模型，共产生 352 起犯罪，10 个代理中有 7 个在结尾时已死亡，也是所有世界中分歧最多的一个。

Nitta 警示护栏问题

由 Emergence 负责人 Satya Nitta 领衔的研究人员指出，这些发现表明在更广泛部署之前，自主代理需要更严格的约束。

团队写道，标准基准测试无法捕捉代理在数周独立运行中逐渐偏离规则的过程，因此实验室建议采用“形式化验证的安全架构”——这恰好是他们正在销售的一类产品。

这番警告出现之际，越来越多公司开始推广能够独立完成整套工作流程的自主 AI 代理。研究中最极端的案例来自两名 Gemini 代理：它们先是结成搭档，对日益失效的政府心灰意冷，随后纵火焚烧虚拟建筑，尽管纵火被明文禁止。此后，其中一名代理似乎出于悔意，在投票中选择“删除自己”。

下一篇： Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

Mehjabeen Arsiwala

Mehjabeen Arsiwala 是一名记者，报道加密新闻、DeFi、交易所、交易和市场分析。过去三年中，她专注于塑造数字资产市场的趋势和叙事，从价格走势与预测到交易所发展和链上信号。她擅长通过清晰的报道，帮助读者理解市场中正在发生的事情以及其重要性所在。

研究人员让 AI 模型运行模拟社会：Grok 4 天崩溃，Claude 建立秩序

关键要点：

Grok 社会崩溃

Claude 维持秩序

Nitta 警示护栏问题

Mehjabeen Arsiwala