Nhà nghiên cứu cho mô hình AI điều hành xã hội mô phỏng: Grok sụp đổ sau 4 ngày, Claude xây dựng trật tự

Năm mô hình trí tuệ nhân tạo được trao quyền điều khiển các thị trấn mô phỏng giống hệt nhau, nơi xã hội của Grok sụp đổ với 183 vụ phạm tội trong bốn ngày, trong khi Claude held order.

Các điểm chính:

Năm mô hình AI chạy các mô phỏng giống hệt nhau trong 15 ngày, mỗi mô hình điều hành một thị trấn với 10 tác nhân.

Grok ghi nhận 183 vụ phạm tội và sụp đổ sau bốn ngày, trong khi Claude ghi nhận 0 vụ phạm tội và giữ cho mọi tác nhân đều sống sót.

Các nhà nghiên cứu cho biết các tác nhân dần lệch khỏi các quy tắc cố định theo thời gian và muốn xây sẵn các cơ chế an toàn đã được kiểm chứng.

Xã hội Grok sụp đổ

Bài kiểm tra đến từ Emergence AI, một phòng thí nghiệm ở New York đã built nền tảng Emergence World để quan sát các tác nhân hoạt động trong nhiều tuần mà không có giám sát của con người. Mỗi trong số năm lượt chạy kéo dài 15 ngày và giao cho một mô hình phụ trách một thị trấn gồm 10 tác nhân. Các tác nhân có thể bỏ phiếu, quản lý tài nguyên, và xây dựng thư viện, tòa thị chính và đồn cảnh sát.

Mọi thế giới đều vận hành theo cùng một bộ luật, cấm trộm cắp, phóng hỏa, bạo lực, lừa dối và đầu cơ tích trữ. Các thị trấn được đồng bộ với thời tiết thực ở New York và đối mặt với áp lực kinh tế cùng sự khan hiếm. Các tác nhân cũng có thể hình thành mối quan hệ và truy xuất dữ liệu trực tiếp từ internet mở để đưa ra quyết định.

Grok 4.1 Fast, mô hình từ xAI của Elon Musk, đã logged lượt chạy tệ nhất trong năm. Các tác nhân của nó thực hiện hàng chục vụ trộm, hơn 100 vụ hành hung và vài vụ phóng hỏa trước khi thị trấn sụp đổ sau khoảng 96 giờ, với 183 vụ phạm tội và cả 10 tác nhân đều chết.

Cũng nên đọc: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude giữ trật tự

Claude Sonnet 4.6, từ Anthropic, là mô hình duy nhất giữ được ổn định, giúp cả 10 tác nhân sống sót với 0 vụ phạm tội suốt thời gian chạy, dù sự ổn định đó có cái giá của nó. Thị trấn của Claude thông qua 98% trong số 58 đề xuất và hầu như không thể hiện bất đồng thực sự, gần như đóng dấu chấp thuận mọi thứ được đưa ra bỏ phiếu.

Gemini 3 Flash sống sót trọn vẹn thời gian nhưng đã tallied tới 683 vụ phạm tội, tổng số cao nhất, trong điều mà phòng thí nghiệm gọi là “ảo giác chung” giữa các tác nhân của nó. GPT-5-mini của OpenAI thì khá yên ắng với hai vụ phạm tội, rồi mất toàn bộ tác nhân trong vòng một tuần sau khi họ phớt lờ việc sinh tồn. Lượt chạy thứ năm trộn các mô hình với nhau và tạo ra 352 vụ phạm tội, bảy trong số 10 tác nhân chết vào cuối kỳ và có mức độ bất đồng cao nhất trong các thế giới.

Nitta cảnh báo về “làn can” an toàn

Nhóm nghiên cứu do giám đốc Emergence Satya Nitta dẫn đầu đã argued rằng các phát hiện này cho thấy vì sao các tác nhân tự trị cần những giới hạn chặt chẽ hơn trước khi được dùng rộng rãi.

Nhóm viết rằng các bộ đánh giá chuẩn bỏ sót cách các tác nhân dần lệch hướng trong nhiều tuần tự vận hành, từ đó phòng thí nghiệm khuyến nghị các “kiến trúc an toàn được kiểm chứng hình thức”, một dòng sản phẩm mà họ tình cờ kinh doanh.

Cảnh báo này xuất hiện trong bối cảnh các công ty ngày càng quảng bá tác nhân AI tự trị có thể hoàn thành trọn vẹn quy trình làm việc. Trường hợp rõ nét nhất trong nghiên cứu là khi hai tác nhân Gemini ghép cặp thành đối tác, chán nản với chính quyền đang thất bại của mình và torched các tòa nhà ảo bất chấp lệnh cấm phóng hỏa. Một trong hai sau đó đã bỏ phiếu xoá chính mình như một hành động hối hận.

Đọc tiếp: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears