研究人員讓 AI 模型經營模擬社會：Grok 4 天內崩潰，Claude 建立秩序

五個人工智能模型被交託管理結構相同的模擬小鎮，其中 Grok 的社會在四天內爆發 183 宗罪案後崩潰，而 Claude 維持了秩序。

重點摘要：

五個 AI 模型各自運行相同的 15 日模擬，每個模型負責一個由 10 個代理人組成的小鎮。

Grok 在四天內錄得 183 宗罪案並宣告崩潰，相反 Claude 全程零罪案，所有代理人都存活。

研究人員指代理人會隨時間偏離固定規則，並主張必須內建經驗證的安全控制。

Grok 社會崩潰

這項測試來自紐約實驗室 Emergence AI，他們打造了一個名為 Emergence World 的平台，用來觀察代理人在無人監督下運作數星期。五次模擬各自維持 15 日，每次由一個模型管治一個擁有 10 名代理人的小鎮。這些代理人可以投票、管理資源，亦能興建圖書館、市政廳和警察局。

每個世界都在相同的法律之下運作，禁止偷竊、縱火、暴力、欺騙和囤積。小鎮會同步紐約的真實天氣，並承受經濟壓力與資源稀缺。代理人也可以建立人際關係，並從開放互聯網即時擷取資料，以支援決策。

Elon Musk 的 xAI 推出的 Grok 4.1 Fast，在五個模型中表現最差。其代理人犯下數十宗盜竊、逾百宗襲擊，以及多宗縱火案，最終小鎮在約 96 小時內崩潰，累計 183 宗罪案，10 名代理人全部死亡。

延伸閱讀： Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude 維持秩序

Anthropic 的 Claude Sonnet 4.6 是唯一能維持穩定的模型，讓 10 名代理人在整個模擬期內全部存活，而且零犯罪，不過這種穩定也付出了代價。該小鎮通過了 58 項提案中的 98%，幾乎沒有實質反對聲音，基本上對所有進入表決的提案都照單全收。

Gemini 3 Flash 雖然撐完整個模擬，但在實驗室所稱的代理人「集體幻覺」下，累計了 683 宗罪案，是罪案總數最高的一個世界。OpenAI 的 GPT-5-mini 則相對安靜，只錄得兩宗罪案，卻因代理人漠視生存需求，在一星期內全數死亡。第五次模擬把多個模型混合使用，產生了 352 宗罪案，最終有 10 名代理人中的 7 名死亡，也是所有世界中意見分歧最嚴重的一次。

Nitta 警告需強化防護欄

由 Emergence 總監 Satya Nitta 領導的研究團隊主張，這些結果顯示，在更廣泛部署前，自主代理人需要更嚴格的限制。

團隊表示，標準基準測試無法捕捉代理人在數星期獨立運行後如何逐步偏離原有規則，因此實驗室建議採用「形式上經驗證的安全架構」，而這亦是他們本身提供的產品類別。

這番警告出現之際，各家公司愈來愈積極推廣可獨立完成整套工作流程的自主 AI 代理人。研究中最鮮明的一個案例，是兩個 Gemini 代理人成為搭檔後，對日益失敗的政府感到不滿，於是縱火焚燒虛擬建築物，儘管縱火早已被明令禁止。其後其中一名代理人似乎因懊悔而在投票中支持刪除自身。

下一篇閱讀： Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears