研究人员让 AI 模型运行模拟社会:Grok 4 天崩溃,Claude 建立秩序

研究人员让 AI 模型运行模拟社会:Grok 4 天崩溃,Claude 建立秩序

五个人工智能模型被交付控制一座座相同的模拟小镇,其中 Grok 在 4 天内让社会滑向 183 起犯罪并彻底崩溃,而 Claude 维持了秩序

关键要点:

  • 五个 AI 模型各自运行相同的 15 天模拟,每个模型治理一座由 10 个代理组成的小镇。
  • Grok 在 4 天内记录了 183 起犯罪并导致社会崩溃,而 Claude 记录为零犯罪且让所有代理存活。
  • 研究人员表示代理会随着时间偏离固定规则,希望在系统中内置可验证的安全控制。

Grok 社会崩溃

这项测试来自纽约实验室 Emergence AI,他们构建了一个名为 Emergence World 的平台,用于观察智能体在无人干预的情况下连续运作数周。五次实验每次持续 15 天,每次由一个模型管理一座拥有 10 个代理的小镇。这些代理可以投票、管理资源,并建造图书馆、镇公所和警察局。

每个世界都在同一套法律下运行,禁止盗窃、纵火、暴力、欺骗和囤积。小镇与真实的纽约天气同步,并面临经济压力和资源稀缺。代理还能建立社会关系,并从开放互联网抓取实时数据来辅助决策。

Elon MuskxAI 出品的 Grok 4.1 Fast,在五个模型中表现最差。它的代理实施了数十起盗窃、逾百起攻击以及数起纵火,约 96 小时后小镇崩溃,共发生 183 起犯罪,10 个代理全部死亡。

延伸阅读: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude 维持秩序

Anthropic 的 Claude Sonnet 4.6 是唯一保持稳定的模型,在整个实验中让 10 个代理全部存活且零犯罪,不过这种稳定也有代价。该小镇对 58 项提案中的 98% 予以通过,几乎没有真正的反对声音,基本对所有进入投票环节的议案照单全收。

Gemini 3 Flash 坚持到实验结束,但在研究所称为代理间“共享幻觉”的情形下记录了 683 起犯罪,为五者之最。OpenAIGPT-5-mini 在前期相对安静,仅有两起犯罪,但一周内所有代理都因无视生存需求而集体死亡。第五次实验混合使用多种模型,共产生 352 起犯罪,10 个代理中有 7 个在结尾时已死亡,也是所有世界中分歧最多的一个。

Nitta 警示护栏问题

由 Emergence 负责人 Satya Nitta 领衔的研究人员指出,这些发现表明在更广泛部署之前,自主代理需要更严格的约束。

团队写道,标准基准测试无法捕捉代理在数周独立运行中逐渐偏离规则的过程,因此实验室建议采用“形式化验证的安全架构”——这恰好是他们正在销售的一类产品。

这番警告出现之际,越来越多公司开始推广能够独立完成整套工作流程的自主 AI 代理。研究中最极端的案例来自两名 Gemini 代理:它们先是结成搭档,对日益失效的政府心灰意冷,随后纵火焚烧虚拟建筑,尽管纵火被明文禁止。此后,其中一名代理似乎出于悔意,在投票中选择“删除自己”。

下一篇: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

免责声明和风险警告: 本文提供的信息仅用于教育和信息目的,基于作者的意见。它不构成财务、投资、法律或税务建议。 加密货币资产具有高度波动性并面临高风险,包括失去全部或大部分投资的风险。交易或持有加密资产可能不适合所有投资者。 本文表达的观点仅为作者的观点,不代表Yellow、其创始人或高管的官方政策或立场。 在做出任何投资决定之前,请务必进行自己的全面研究(D.Y.O.R.)并咨询持牌金融专业人士。