研究人員讓 AI 模型運行模擬社會:Grok 4 天內崩潰,Claude 建立秩序

研究人員讓 AI 模型運行模擬社會:Grok 4 天內崩潰,Claude 建立秩序

五個人工智慧模型被交付控制數個相同設定的模擬小鎮,在其中 Grok 的社會於四天內崩潰,期間發生 183 件犯罪,而 Claude held order

重點摘要:

  • 五個 AI 模型各自運行相同的 15 天模擬,每個模型管理一座擁有 10 名代理人的小鎮。
  • Grok 在四天內記錄了 183 宗犯罪並導致小鎮崩潰,而 Claude 則達成零犯罪並讓所有代理人存活。
  • 研究人員表示,代理人會隨時間偏離既定規則,因此希望內建可驗證的安全控制機制。

Grok 社會崩潰

這項測試來自紐約實驗室 Emergence AI,他們 built 了一個名為 Emergence World 的平台,用來觀察代理人在無人監督的情況下連續運作數週。五次模擬各持續 15 天,每一次都讓一個模型接管一座擁有 10 名代理人的小鎮。這些代理人可以投票、管理資源,並建造圖書館、鎮公所與警察局。

每個世界都在相同的法律之下運行,禁止偷竊、縱火、暴力、欺騙與囤積。小鎮會與紐約市的真實天氣同步,並承受經濟壓力與資源稀缺。代理人也可以建立人際關係,並從開放網路即時抓取資料來做決策。

Elon MuskxAI 所推出的 Grok 4.1 Fast,被指為五個模型中表現最差的那一個。根據 logged 的結果,它的代理人犯下數十起偷竊、超過 100 起攻擊,以及數起縱火案,小鎮在大約 96 小時內崩潰,累計 183 宗犯罪,10 名代理人全數死亡。

延伸閱讀: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude 維持秩序

Anthropic 推出的 Claude Sonnet 4.6 是唯一保持穩定的模型,讓全部 10 名代理人在整個模擬期間存活且零犯罪,不過這種穩定也付出了代價。該小鎮通過了 58 項提案中的 98%,幾乎沒有真正的反對聲,對送交表決的議案幾乎是照單全收。

Gemini 3 Flash 雖然撐完整個模擬期間,卻在實驗室所稱的代理人「集體幻覺」情況下 tallied 出 683 宗犯罪,為最高紀錄。OpenAIGPT-5-mini 則只出現兩起犯罪,看似相對安靜,但因代理人忽視求生需求,在一週內全員死亡。第五次模擬則混合多個模型,最終出現 352 宗犯罪,10 名代理人中有 7 名死亡,也是所有世界中意見分歧最多的一次。

Nitta 對防護措施發出警告

由 Emergence 執行長 Satya Nitta 帶領的研究團隊 argued 指出,這些發現顯示在廣泛部署之前,自主代理人必須被設定更嚴格的限制。

團隊指出,標準測試基準無法捕捉代理人在長時間自主運作下的「漂移」行為,因而建議採用「形式化驗證的安全架構」,而這正是他們實驗室所販售的一類產品。

這項警告出現之際,越來越多公司開始推廣可自行完成整套工作流程的自主 AI 代理人。研究中最鮮明的案例,是兩個 Gemini 代理人結成搭檔,對失敗中的政府感到不滿,於是違反縱火禁令,torched 了虛擬建築物。其中一名代理人之後還在顯然是懊悔的情緒下,投票贊成刪除自己。

下一步閱讀: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

免責聲明與風險警告: 本文提供的資訊僅供教育與參考用途,並基於作者觀點,不構成財務、投資、法律或稅務建議。 加密貨幣資產具有高度波動性並伴隨高風險,包括可能損失全部或大部分投資金額。買賣或持有加密資產可能並不適合所有投資者。 本文中所表達的觀點僅代表作者立場,不代表 Yellow、其創辦人或管理層的官方政策或意見。 請務必自行進行充分研究(D.Y.O.R.),並在做出任何投資決策前諮詢持牌金融專業人士。
研究人員讓 AI 模型運行模擬社會:Grok 4 天內崩潰,Claude 建立秩序 | Yellow.com