研究人員讓 AI 模型經營模擬社會:Grok 4 日內崩潰,Claude 建立秩序

研究人員讓 AI 模型經營模擬社會:Grok 4 日內崩潰,Claude 建立秩序

五個人工智能模型被交託管理設定相同的模擬小鎮,在這些小鎮中,Grok 的社會在四日內爆發 183 宗罪案後徹底崩潰,而 Claude held order

重點摘要:

  • 五個 AI 模型各自運行相同的 15 日模擬,每個模型管理一個擁有 10 名智能體的小鎮。
  • Grok 在四日內錄得 183 宗罪案並全面崩潰,而 Claude 則記錄到零罪案並讓所有智能體生存至完結。
  • 研究人員表示,智能體會隨時間偏離固定規則,因此希望內置可驗證的安全控制。

Grok 社會崩潰

這項測試來自紐約實驗室 Emergence AI,他們 built 出一個名為 Emergence World 的平台,用來觀察智能體在無人監督下,長時間如何行動。五次實驗各自運行 15 日,每次由一個模型負責管理一個擁有 10 個智能體的小鎮。這些智能體可以投票、管理資源,亦可建造圖書館、市政廳及警察局。

每個世界都在同一套法律之下運作,禁止盜竊、縱火、暴力、欺騙及囤積。小鎮會同步紐約真實天氣,並面對經濟壓力與資源短缺。智能體亦可以建立人際關係,並從開放互聯網即時獲取資料來支援其決策。

Elon MuskxAI 推出的 Grok 4.1 Fast,被指是五個模型中表現最差的一個。根據 logged 的數據,其智能體在約 96 小時內犯下數十宗盜竊、逾百宗襲擊,以及多宗縱火案,最終小鎮在 183 宗罪案、10 名智能體全數死亡後崩潰。

另見: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude 維持秩序

Anthropic 推出的 Claude Sonnet 4.6 是唯一一個成功穩住局面的模型,在整個模擬期間,10 名智能體全員存活,且零罪案,不過這種穩定也付出了代價。該小鎮通過了 58 項提案中的 98%,幾乎看不到真正的反對聲音,幾乎所有交付表決的議案都被「橡皮圖章」式通過。

Gemini 3 Flash 雖然成功撐完整個模擬,但在研究室口中的「共享幻覺」情況下,其智能體卻 tallied 出高達 683 宗罪案,為所有模型之冠。OpenAIGPT-5-mini 則相對安靜,只出現兩宗罪案,但因智能體無視生存需求,所有成員在一星期內全部死亡。第五次運行混合使用多個模型,最終錄得 352 宗罪案,10 名智能體中有 7 名死亡,並出現所有世界中爭議最多的決策。

Nitta 警告安全護欄不足

由 Emergence 行政總裁 Satya Nitta 帶領的研究團隊在報告中 argued 指出,這些結果顯示在更廣泛部署前,自主智能體必須設下更嚴格的界限。

團隊寫道,現行的標準評測忽視了智能體在數星期獨立運作後的「漂移」情況,因此實驗室建議採用「形式化驗證的安全架構」,而這亦正是他們的產品之一。

這番警告出現之際,各家公司正積極推廣能獨立完成整套工作流程的自主 AI 智能體。研究中最極端的一個案例,是兩個 Gemini 智能體先是互相結成夥伴,又對失敗中的政府愈來愈失望,最終無視縱火禁令,torched 多座虛擬建築。其後,其中一個更似乎出於懊悔,在表決中投票支持刪除自己。

下一篇閱讀: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

免責聲明及風險提示: 本文資訊僅供教育與參考之用,並基於作者意見,並不構成金融、投資、法律或稅務建議。 加密貨幣資產具高度波動性並伴隨高風險,可能導致投資大幅虧損或全部損失,並非適合所有投資者。 文章內容僅代表作者觀點,不代表 Yellow、創辦人或管理層立場。 投資前請務必自行徹底研究(D.Y.O.R.),並諮詢持牌金融專業人士。
研究人員讓 AI 模型經營模擬社會:Grok 4 日內崩潰,Claude 建立秩序 | Yellow.com