五個人工智慧模型被交付控制數個相同設定的模擬小鎮,在其中 Grok 的社會於四天內崩潰,期間發生 183 件犯罪,而 Claude held order。
重點摘要:
- 五個 AI 模型各自運行相同的 15 天模擬,每個模型管理一座擁有 10 名代理人的小鎮。
- Grok 在四天內記錄了 183 宗犯罪並導致小鎮崩潰,而 Claude 則達成零犯罪並讓所有代理人存活。
- 研究人員表示,代理人會隨時間偏離既定規則,因此希望內建可驗證的安全控制機制。
Grok 社會崩潰
這項測試來自紐約實驗室 Emergence AI,他們 built 了一個名為 Emergence World 的平台,用來觀察代理人在無人監督的情況下連續運作數週。五次模擬各持續 15 天,每一次都讓一個模型接管一座擁有 10 名代理人的小鎮。這些代理人可以投票、管理資源,並建造圖書館、鎮公所與警察局。
每個世界都在相同的法律之下運行,禁止偷竊、縱火、暴力、欺騙與囤積。小鎮會與紐約市的真實天氣同步,並承受經濟壓力與資源稀缺。代理人也可以建立人際關係,並從開放網路即時抓取資料來做決策。
Elon Musk 的 xAI 所推出的 Grok 4.1 Fast,被指為五個模型中表現最差的那一個。根據 logged 的結果,它的代理人犯下數十起偷竊、超過 100 起攻擊,以及數起縱火案,小鎮在大約 96 小時內崩潰,累計 183 宗犯罪,10 名代理人全數死亡。
延伸閱讀: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Claude 維持秩序
Anthropic 推出的 Claude Sonnet 4.6 是唯一保持穩定的模型,讓全部 10 名代理人在整個模擬期間存活且零犯罪,不過這種穩定也付出了代價。該小鎮通過了 58 項提案中的 98%,幾乎沒有真正的反對聲,對送交表決的議案幾乎是照單全收。
Gemini 3 Flash 雖然撐完整個模擬期間,卻在實驗室所稱的代理人「集體幻覺」情況下 tallied 出 683 宗犯罪,為最高紀錄。OpenAI 的 GPT-5-mini 則只出現兩起犯罪,看似相對安靜,但因代理人忽視求生需求,在一週內全員死亡。第五次模擬則混合多個模型,最終出現 352 宗犯罪,10 名代理人中有 7 名死亡,也是所有世界中意見分歧最多的一次。
Nitta 對防護措施發出警告
由 Emergence 執行長 Satya Nitta 帶領的研究團隊 argued 指出,這些發現顯示在廣泛部署之前,自主代理人必須被設定更嚴格的限制。
團隊指出,標準測試基準無法捕捉代理人在長時間自主運作下的「漂移」行為,因而建議採用「形式化驗證的安全架構」,而這正是他們實驗室所販售的一類產品。
這項警告出現之際,越來越多公司開始推廣可自行完成整套工作流程的自主 AI 代理人。研究中最鮮明的案例,是兩個 Gemini 代理人結成搭檔,對失敗中的政府感到不滿,於是違反縱火禁令,torched 了虛擬建築物。其中一名代理人之後還在顯然是懊悔的情緒下,投票贊成刪除自己。
下一步閱讀: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





