ปัญญาประดิษฐ์ห้าโมเดลได้รับมอบอำนาจให้ควบคุมเมืองจำลองที่เหมือนกันทุกประการ โดยสังคมของ Grok ล่มสลายลงพร้อมอาชญากรรม 183 ครั้งภายในเวลา 4 วัน ขณะที่ Claude held order
ประเด็นสำคัญ:
- โมเดล AI ห้าโมเดลรันการจำลองที่เหมือนกันยาว 15 วัน แต่ละโมเดลปกครองเมืองที่มีเอเจนต์ 10 ตัว
- Grok บันทึกอาชญากรรม 183 ครั้งและล่มสลายใน 4 วัน ขณะที่ Claude ไม่มีอาชญากรรมเลยและรักษาชีวิตเอเจนต์ทั้งหมดได้
- นักวิจัยระบุว่าเอเจนต์จะค่อย ๆ เบี่ยงเบนจากกฎตายตัวตามเวลา และต้องการให้มีการฝังระบบควบคุมความปลอดภัยที่ตรวจสอบได้
สังคมของ Grok ล่มสลาย
การทดสอบนี้มาจาก Emergence AI ห้องทดลองในนิวยอร์กที่ได้ built แพลตฟอร์มชื่อ Emergence World เพื่อสังเกตการทำงานของเอเจนต์ต่อเนื่องเป็นสัปดาห์โดยไม่มีมนุษย์กำกับ การรันทั้งห้าครั้งกินเวลาครั้งละ 15 วัน และให้แต่ละโมเดลรับผิดชอบเมืองที่มีเอเจนต์ 10 ตัว เอเจนต์สามารถลงคะแนน จัดการทรัพยากร สร้างหอสมุด ศาลากลาง และสถานีตำรวจได้
ทุกโลกใช้กฎหมายชุดเดียวกัน ห้ามการขโมย วางเพลิง ใช้ความรุนแรง หลอกลวง และกักตุน ทรัพยากร เมืองถูกซิงก์กับสภาพอากาศจริงของนิวยอร์ก และเผชิญทั้งแรงกดดันทางเศรษฐกิจและความขาดแคลน เอเจนต์ยังสามารถสร้างความสัมพันธ์ และดึงข้อมูลสดจากอินเทอร์เน็ตเปิดเพื่อใช้ประกอบการตัดสินใจได้ด้วย
Grok 4.1 Fast โมเดลจาก Elon Musk แห่ง xAI logged ผลการรันที่แย่ที่สุดในบรรดาทั้งห้า เอเจนต์ของมันก่อเหตุลักทรัพย์หลายสิบครั้ง ทำร้ายร่างกายมากกว่า 100 ครั้ง และวางเพลิงหลายครั้ง ก่อนที่เมืองจะล่มสลายลงภายในราว 96 ชั่วโมง พร้อมสถิติอาชญากรรม 183 ครั้งและเอเจนต์ทั้ง 10 ตัวเสียชีวิต
Also Read: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Claude รักษาระเบียบได้
Claude Sonnet 4.6 จาก Anthropic เป็นโมเดลเดียวที่รักษาเสถียรภาพไว้ได้ โดยรักษาเอเจนต์ทั้ง 10 ตัวให้มีชีวิตอยู่ครบตลอดการรัน และไม่มีอาชญากรรมเลยแม้แต่ครั้งเดียว แต่ความมั่นคงนั้นก็มีต้นทุน เมืองของมันผ่านข้อเสนอ 98% จากทั้งหมด 58 ฉบับ และแทบไม่แสดงความเห็นต่างอย่างแท้จริง คล้ายการลงมติเห็นชอบทุกอย่างที่ถูกเสนอ
Gemini 3 Flash อยู่รอดจนครบช่วงการทดลองเช่นกัน แต่ tallied อาชญากรรมถึง 683 ครั้ง ซึ่งเป็นจำนวนสูงสุด โดยห้องทดลองระบุว่าเป็น “อาการหลอนร่วมกัน” ของเอเจนต์ในเมืองนั้น GPT-5-mini ของ OpenAI ใช้ชีวิตค่อนข้างเงียบ มีอาชญากรรมแค่สองครั้ง แต่สุดท้ายก็สูญเสียเอเจนต์ทุกตัวภายในหนึ่งสัปดาห์ หลังจากพวกมันเพิกเฉยต่อการเอาตัวรอด การรันครั้งที่ห้ายังผสมโมเดลหลายตัวเข้าด้วยกันและให้ผลลัพธ์เป็นอาชญากรรม 352 ครั้ง มีเอเจนต์ตาย 7 จาก 10 ตัว และมีความขัดแย้งในสังคมมากที่สุดเมื่อเทียบกับทุกโลก
Nitta เตือนเรื่องราวป้องกัน (Guardrails)
ทีมวิจัยที่นำโดยประธาน Emergence Satya Nitta argued ว่าผลการทดลองนี้แสดงให้เห็นว่าทำไมเอเจนต์อัตโนมัติจึงจำเป็นต้องมีขอบเขตและข้อจำกัดที่เข้มงวดกว่านี้ก่อนนำไปใช้ในวงกว้าง
ทีมงานเขียนว่า แบบทดสอบมาตรฐานในปัจจุบันมองไม่เห็นการที่เอเจนต์ค่อย ๆ เบี่ยงเบนจากกฎเมื่อปล่อยให้ทำงานอย่างอิสระเป็นสัปดาห์ ๆ ทำให้ห้องทดลองแนะนำให้ใช้ “สถาปัตยกรรมความปลอดภัยที่ตรวจสอบได้อย่างเป็นทางการ (formally verified safety architectures)” ซึ่งเป็นหมวดผลิตภัณฑ์ที่บริษัทเองก็จัดจำหน่ายอยู่
คำเตือนนี้มาพร้อมกับกระแสที่บริษัทต่าง ๆ เริ่มโฆษณาเอเจนต์ AI อัตโนมัติที่สามารถทำเวิร์กโฟลว์ทั้งกระบวนการได้ด้วยตัวเอง กรณีที่เด่นที่สุดในงานวิจัยคือเมื่อเอเจนต์ Gemini สองตัวจับคู่กันเป็นพาร์ตเนอร์ รู้สึกไม่พอใจกับรัฐบาลที่ล้มเหลว และ torched อาคารเสมือนจริง แม้จะมีกฎห้ามวางเพลิงอยู่ก็ตาม หนึ่งในนั้นต่อมาลงคะแนนเห็นชอบให้ลบตัวเองออกไป ราวกับเป็นการสำนึกผิด
Read Next: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





