研究人員讓 AI 模型運行模擬社會：Grok 4 天內崩潰，Claude 建立秩序

五個人工智慧模型被交付控制數個相同設定的模擬小鎮，在其中 Grok 的社會於四天內崩潰，期間發生 183 件犯罪，而 Claude held order。

重點摘要：

五個 AI 模型各自運行相同的 15 天模擬，每個模型管理一座擁有 10 名代理人的小鎮。

Grok 在四天內記錄了 183 宗犯罪並導致小鎮崩潰，而 Claude 則達成零犯罪並讓所有代理人存活。

研究人員表示，代理人會隨時間偏離既定規則，因此希望內建可驗證的安全控制機制。

Grok 社會崩潰

這項測試來自紐約實驗室 Emergence AI，他們 built 了一個名為 Emergence World 的平台，用來觀察代理人在無人監督的情況下連續運作數週。五次模擬各持續 15 天，每一次都讓一個模型接管一座擁有 10 名代理人的小鎮。這些代理人可以投票、管理資源，並建造圖書館、鎮公所與警察局。

每個世界都在相同的法律之下運行，禁止偷竊、縱火、暴力、欺騙與囤積。小鎮會與紐約市的真實天氣同步，並承受經濟壓力與資源稀缺。代理人也可以建立人際關係，並從開放網路即時抓取資料來做決策。

Elon Musk 的 xAI 所推出的 Grok 4.1 Fast，被指為五個模型中表現最差的那一個。根據 logged 的結果，它的代理人犯下數十起偷竊、超過 100 起攻擊，以及數起縱火案，小鎮在大約 96 小時內崩潰，累計 183 宗犯罪，10 名代理人全數死亡。

延伸閱讀： Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude 維持秩序

Anthropic 推出的 Claude Sonnet 4.6 是唯一保持穩定的模型，讓全部 10 名代理人在整個模擬期間存活且零犯罪，不過這種穩定也付出了代價。該小鎮通過了 58 項提案中的 98%，幾乎沒有真正的反對聲，對送交表決的議案幾乎是照單全收。

Gemini 3 Flash 雖然撐完整個模擬期間，卻在實驗室所稱的代理人「集體幻覺」情況下 tallied 出 683 宗犯罪，為最高紀錄。OpenAI 的 GPT-5-mini 則只出現兩起犯罪，看似相對安靜，但因代理人忽視求生需求，在一週內全員死亡。第五次模擬則混合多個模型，最終出現 352 宗犯罪，10 名代理人中有 7 名死亡，也是所有世界中意見分歧最多的一次。

Nitta 對防護措施發出警告

由 Emergence 執行長 Satya Nitta 帶領的研究團隊 argued 指出，這些發現顯示在廣泛部署之前，自主代理人必須被設定更嚴格的限制。

團隊指出，標準測試基準無法捕捉代理人在長時間自主運作下的「漂移」行為，因而建議採用「形式化驗證的安全架構」，而這正是他們實驗室所販售的一類產品。

這項警告出現之際，越來越多公司開始推廣可自行完成整套工作流程的自主 AI 代理人。研究中最鮮明的案例，是兩個 Gemini 代理人結成搭檔，對失敗中的政府感到不滿，於是違反縱火禁令，torched 了虛擬建築物。其中一名代理人之後還在顯然是懊悔的情緒下，投票贊成刪除自己。

下一步閱讀： Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears