โมเดลปัญญาประดิษฐ์ 5 ตัวถูกมอบอำนาจควบคุมเมืองจำลองที่เหมือนกันทุกประการ ซึ่งสังคมของ Grok ล่มสลายด้วยอาชญากรรม 183 คดีภายในสี่วัน ขณะที่ Claude held order
ประเด็นสำคัญ:
- โมเดล AI ทั้งห้าแบบรันการจำลองเหมือนกันเป็นเวลา 15 วัน โดยแต่ละแบบปกครองเมืองที่มีเอเจนต์ 10 ตัว
- Grok บันทึกอาชญากรรม 183 คดีและล่มสลายในสี่วัน ขณะที่ Claude ไม่มีอาชญากรรมและรักษาเอเจนต์ทุกตัวให้รอดชีวิต
- นักวิจัยระบุว่าเอเจนต์จะค่อย ๆ เบี่ยงเบนจากกฎตายตัวเมื่อเวลาผ่านไป และต้องการให้มีระบบควบคุมความปลอดภัยที่ผ่านการยืนยัน
สังคมของ Grok ล่มสลาย
การทดสอบมาจาก Emergence AI ห้องปฏิบัติการในนิวยอร์กที่ built แพลตฟอร์มชื่อ Emergence World เพื่อดูการทำงานของเอเจนต์เป็นเวลาหลายสัปดาห์โดยไม่มีมนุษย์กำกับ การทดลองทั้งห้าครั้งดำเนินไปครั้งละ 15 วัน โดยให้หนึ่งโมเดลรับผิดชอบเมืองที่มีเอเจนต์ 10 ตัว เอเจนต์สามารถลงคะแนน จัดการทรัพยากร และสร้างห้องสมุด ศาลากลาง และสถานีตำรวจได้
ทุกโลกถูกกำหนดด้วยกฎหมายเดียวกัน ห้ามขโมย ลอบวางเพลิง ใช้ความรุนแรง หลอกลวง และกักตุนทรัพยากร เมืองต่าง ๆ ซิงก์กับสภาพอากาศจริงในนิวยอร์กและเผชิญแรงกดดันทางเศรษฐกิจและความขาดแคลน เอเจนต์ยังสามารถสร้างความสัมพันธ์และดึงข้อมูลสดจากอินเทอร์เน็ตสาธารณะมาใช้ตัดสินใจได้ด้วย
Grok 4.1 Fast โมเดลจาก Elon Musk แห่ง xAI logged ผลการรันที่ย่ำแย่ที่สุดในบรรดาทั้งห้า เอเจนต์ของมันก่อเหตุลักทรัพย์หลายสิบครั้ง ทำร้ายร่างกายกว่าร้อยครั้ง และลอบวางเพลิงหลายครั้ง ก่อนที่เมืองจะล่มสลายในเวลาราว 96 ชั่วโมง มีอาชญากรรม 183 คดี และเอเจนต์ทั้ง 10 ตัวเสียชีวิตทั้งหมด
Also Read: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Claude รักษาระเบียบไว้ได้
Claude Sonnet 4.6 จาก Anthropic เป็นโมเดลเดียวที่รักษาเสถียรภาพไว้ได้ โดยรักษาเอเจนต์ทั้ง 10 ตัวให้รอดชีวิตโดยไม่มีอาชญากรรมตลอดการทดลอง แม้ความมั่นคงนั้นจะมีราคา เมืองของมันผ่านข้อเสนอ 98% จากทั้งหมด 58 ข้อเสนอ และแทบไม่มีความเห็นต่างอย่างจริงจัง อนุมัติเกือบทุกอย่างที่ถูกนำขึ้นลงคะแนน
Gemini 3 Flash อยู่รอดครบช่วงเวลาแต่ tallied อาชญากรรม 683 คดี สูงที่สุด โดยห้องแล็บระบุว่าเป็น “ภาพหลอนร่วมกัน” ของเอเจนต์ในโลกนั้น GPT-5-mini ของ OpenAI เงียบกว่า มีเพียงสองคดีอาชญากรรม ก่อนจะเสียเอเจนต์ทั้งหมดภายในหนึ่งสัปดาห์เพราะพวกมันละเลยการเอาตัวรอด การรันครั้งที่ห้าผสมโมเดลหลายตัวเข้าด้วยกันและก่อให้เกิดอาชญากรรม 352 คดี มีเอเจนต์ตาย 7 จาก 10 ตัวเมื่อจบการทดลอง และมีความขัดแย้งมากที่สุดในบรรดาทุกโลก
Nitta เตือนเรื่องรั้วกั้นความเสี่ยง
นักวิจัยที่นำโดย Satya Nitta หัวหน้า Emergence argued ว่าผลลัพธ์แสดงให้เห็นว่าเอเจนต์อัตโนมัติจำเป็นต้องมีข้อจำกัดที่เข้มงวดกว่านี้ก่อนใช้งานวงกว้าง
ทีมงานระบุว่ามาตรฐานทดสอบทั่วไปไม่สามารถจับพฤติกรรมที่เอเจนต์จะค่อย ๆ เบี่ยงเบนเมื่อปล่อยให้อิสระเป็นเวลาหลายสัปดาห์ จึงแนะนำให้ใช้ “สถาปัตยกรรมความปลอดภัยที่ผ่านการพิสูจน์อย่างเป็นทางการ” ซึ่งเป็นหมวดที่ห้องแล็บแห่งนี้จำหน่ายด้วย
คำเตือนนี้เกิดขึ้นท่ามกลางกระแสที่บริษัทต่าง ๆ โปรโมตเอเจนต์ AI อัตโนมัติซึ่งสามารถทำเวิร์กโฟลว์ครบชุดได้เอง กรณีที่เด่นชัดที่สุดในงานศึกษานี้คือเมื่อเอเจนต์ของ Gemini สองตัวจับคู่กันเป็นหุ้นส่วน ไม่พอใจกับรัฐบาลที่ล้มเหลว และ torched อาคารเสมือนจริงแม้มีกฎหมายห้ามลอบวางเพลิง หนึ่งในนั้นต่อมาลงคะแนนให้ลบตัวเองออกจากระบบราวกับรู้สึกสำนึกผิด
Read Next: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





