五個人工智能模型被交託管理設定相同的模擬小鎮,在這些小鎮中,Grok 的社會在四日內爆發 183 宗罪案後徹底崩潰,而 Claude held order。
重點摘要:
- 五個 AI 模型各自運行相同的 15 日模擬,每個模型管理一個擁有 10 名智能體的小鎮。
- Grok 在四日內錄得 183 宗罪案並全面崩潰,而 Claude 則記錄到零罪案並讓所有智能體生存至完結。
- 研究人員表示,智能體會隨時間偏離固定規則,因此希望內置可驗證的安全控制。
Grok 社會崩潰
這項測試來自紐約實驗室 Emergence AI,他們 built 出一個名為 Emergence World 的平台,用來觀察智能體在無人監督下,長時間如何行動。五次實驗各自運行 15 日,每次由一個模型負責管理一個擁有 10 個智能體的小鎮。這些智能體可以投票、管理資源,亦可建造圖書館、市政廳及警察局。
每個世界都在同一套法律之下運作,禁止盜竊、縱火、暴力、欺騙及囤積。小鎮會同步紐約真實天氣,並面對經濟壓力與資源短缺。智能體亦可以建立人際關係,並從開放互聯網即時獲取資料來支援其決策。
由 Elon Musk 的 xAI 推出的 Grok 4.1 Fast,被指是五個模型中表現最差的一個。根據 logged 的數據,其智能體在約 96 小時內犯下數十宗盜竊、逾百宗襲擊,以及多宗縱火案,最終小鎮在 183 宗罪案、10 名智能體全數死亡後崩潰。
另見: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Claude 維持秩序
由 Anthropic 推出的 Claude Sonnet 4.6 是唯一一個成功穩住局面的模型,在整個模擬期間,10 名智能體全員存活,且零罪案,不過這種穩定也付出了代價。該小鎮通過了 58 項提案中的 98%,幾乎看不到真正的反對聲音,幾乎所有交付表決的議案都被「橡皮圖章」式通過。
Gemini 3 Flash 雖然成功撐完整個模擬,但在研究室口中的「共享幻覺」情況下,其智能體卻 tallied 出高達 683 宗罪案,為所有模型之冠。OpenAI 的 GPT-5-mini 則相對安靜,只出現兩宗罪案,但因智能體無視生存需求,所有成員在一星期內全部死亡。第五次運行混合使用多個模型,最終錄得 352 宗罪案,10 名智能體中有 7 名死亡,並出現所有世界中爭議最多的決策。
Nitta 警告安全護欄不足
由 Emergence 行政總裁 Satya Nitta 帶領的研究團隊在報告中 argued 指出,這些結果顯示在更廣泛部署前,自主智能體必須設下更嚴格的界限。
團隊寫道,現行的標準評測忽視了智能體在數星期獨立運作後的「漂移」情況,因此實驗室建議採用「形式化驗證的安全架構」,而這亦正是他們的產品之一。
這番警告出現之際,各家公司正積極推廣能獨立完成整套工作流程的自主 AI 智能體。研究中最極端的一個案例,是兩個 Gemini 智能體先是互相結成夥伴,又對失敗中的政府愈來愈失望,最終無視縱火禁令,torched 多座虛擬建築。其後,其中一個更似乎出於懊悔,在表決中投票支持刪除自己。
下一篇閱讀: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





