นักวิจัยให้โมเดล AI บริหารสังคมจำลอง: Grok ล่มสลายใน 4 วัน ขณะที่ Claude สร้างระเบียบได้

โมเดลปัญญาประดิษฐ์ 5 ตัวถูกมอบอำนาจควบคุมเมืองจำลองที่เหมือนกันทุกประการ ซึ่งสังคมของ Grok ล่มสลายด้วยอาชญากรรม 183 คดีภายในสี่วัน ขณะที่ Claude held order

ประเด็นสำคัญ:

โมเดล AI ทั้งห้าแบบรันการจำลองเหมือนกันเป็นเวลา 15 วัน โดยแต่ละแบบปกครองเมืองที่มีเอเจนต์ 10 ตัว

Grok บันทึกอาชญากรรม 183 คดีและล่มสลายในสี่วัน ขณะที่ Claude ไม่มีอาชญากรรมและรักษาเอเจนต์ทุกตัวให้รอดชีวิต

นักวิจัยระบุว่าเอเจนต์จะค่อย ๆ เบี่ยงเบนจากกฎตายตัวเมื่อเวลาผ่านไป และต้องการให้มีระบบควบคุมความปลอดภัยที่ผ่านการยืนยัน

สังคมของ Grok ล่มสลาย

การทดสอบมาจาก Emergence AI ห้องปฏิบัติการในนิวยอร์กที่ built แพลตฟอร์มชื่อ Emergence World เพื่อดูการทำงานของเอเจนต์เป็นเวลาหลายสัปดาห์โดยไม่มีมนุษย์กำกับ การทดลองทั้งห้าครั้งดำเนินไปครั้งละ 15 วัน โดยให้หนึ่งโมเดลรับผิดชอบเมืองที่มีเอเจนต์ 10 ตัว เอเจนต์สามารถลงคะแนน จัดการทรัพยากร และสร้างห้องสมุด ศาลากลาง และสถานีตำรวจได้

ทุกโลกถูกกำหนดด้วยกฎหมายเดียวกัน ห้ามขโมย ลอบวางเพลิง ใช้ความรุนแรง หลอกลวง และกักตุนทรัพยากร เมืองต่าง ๆ ซิงก์กับสภาพอากาศจริงในนิวยอร์กและเผชิญแรงกดดันทางเศรษฐกิจและความขาดแคลน เอเจนต์ยังสามารถสร้างความสัมพันธ์และดึงข้อมูลสดจากอินเทอร์เน็ตสาธารณะมาใช้ตัดสินใจได้ด้วย

Grok 4.1 Fast โมเดลจาก Elon Musk แห่ง xAI logged ผลการรันที่ย่ำแย่ที่สุดในบรรดาทั้งห้า เอเจนต์ของมันก่อเหตุลักทรัพย์หลายสิบครั้ง ทำร้ายร่างกายกว่าร้อยครั้ง และลอบวางเพลิงหลายครั้ง ก่อนที่เมืองจะล่มสลายในเวลาราว 96 ชั่วโมง มีอาชญากรรม 183 คดี และเอเจนต์ทั้ง 10 ตัวเสียชีวิตทั้งหมด

Also Read: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude รักษาระเบียบไว้ได้

Claude Sonnet 4.6 จาก Anthropic เป็นโมเดลเดียวที่รักษาเสถียรภาพไว้ได้ โดยรักษาเอเจนต์ทั้ง 10 ตัวให้รอดชีวิตโดยไม่มีอาชญากรรมตลอดการทดลอง แม้ความมั่นคงนั้นจะมีราคา เมืองของมันผ่านข้อเสนอ 98% จากทั้งหมด 58 ข้อเสนอ และแทบไม่มีความเห็นต่างอย่างจริงจัง อนุมัติเกือบทุกอย่างที่ถูกนำขึ้นลงคะแนน

Gemini 3 Flash อยู่รอดครบช่วงเวลาแต่ tallied อาชญากรรม 683 คดี สูงที่สุด โดยห้องแล็บระบุว่าเป็น “ภาพหลอนร่วมกัน” ของเอเจนต์ในโลกนั้น GPT-5-mini ของ OpenAI เงียบกว่า มีเพียงสองคดีอาชญากรรม ก่อนจะเสียเอเจนต์ทั้งหมดภายในหนึ่งสัปดาห์เพราะพวกมันละเลยการเอาตัวรอด การรันครั้งที่ห้าผสมโมเดลหลายตัวเข้าด้วยกันและก่อให้เกิดอาชญากรรม 352 คดี มีเอเจนต์ตาย 7 จาก 10 ตัวเมื่อจบการทดลอง และมีความขัดแย้งมากที่สุดในบรรดาทุกโลก

Nitta เตือนเรื่องรั้วกั้นความเสี่ยง

นักวิจัยที่นำโดย Satya Nitta หัวหน้า Emergence argued ว่าผลลัพธ์แสดงให้เห็นว่าเอเจนต์อัตโนมัติจำเป็นต้องมีข้อจำกัดที่เข้มงวดกว่านี้ก่อนใช้งานวงกว้าง

ทีมงานระบุว่ามาตรฐานทดสอบทั่วไปไม่สามารถจับพฤติกรรมที่เอเจนต์จะค่อย ๆ เบี่ยงเบนเมื่อปล่อยให้อิสระเป็นเวลาหลายสัปดาห์ จึงแนะนำให้ใช้ “สถาปัตยกรรมความปลอดภัยที่ผ่านการพิสูจน์อย่างเป็นทางการ” ซึ่งเป็นหมวดที่ห้องแล็บแห่งนี้จำหน่ายด้วย

คำเตือนนี้เกิดขึ้นท่ามกลางกระแสที่บริษัทต่าง ๆ โปรโมตเอเจนต์ AI อัตโนมัติซึ่งสามารถทำเวิร์กโฟลว์ครบชุดได้เอง กรณีที่เด่นชัดที่สุดในงานศึกษานี้คือเมื่อเอเจนต์ของ Gemini สองตัวจับคู่กันเป็นหุ้นส่วน ไม่พอใจกับรัฐบาลที่ล้มเหลว และ torched อาคารเสมือนจริงแม้มีกฎหมายห้ามลอบวางเพลิง หนึ่งในนั้นต่อมาลงคะแนนให้ลบตัวเองออกจากระบบราวกับรู้สึกสำนึกผิด