Năm mô hình trí tuệ nhân tạo được trao quyền kiểm soát các thị trấn mô phỏng giống hệt nhau, nơi xã hội của Grok sụp đổ với 183 tội phạm trong vòng bốn ngày, trong khi Claude giữ được trật tự.
Điểm chính:
- Năm mô hình AI chạy các mô phỏng 15 ngày giống hệt nhau, mỗi mô hình quản lý một thị trấn gồm 10 tác nhân.
- Grok ghi nhận 183 tội phạm và sụp đổ trong bốn ngày, trong khi Claude ghi nhận không có tội phạm nào và giữ cho tất cả tác nhân sống sót.
- Các nhà nghiên cứu cho rằng các tác nhân sẽ dần lệch khỏi các quy tắc cố định theo thời gian và muốn tích hợp các cơ chế an toàn đã được kiểm chứng.
Xã hội Grok sụp đổ
Bài thử nghiệm đến từ Emergence AI, một phòng thí nghiệm ở New York đã xây dựng nền tảng Emergence World để quan sát các tác nhân hoạt động trong nhiều tuần mà không có giám sát của con người. Mỗi trong năm lượt chạy kéo dài 15 ngày và đặt một mô hình phụ trách một thị trấn gồm 10 tác nhân. Các tác nhân có thể bỏ phiếu, quản lý tài nguyên, và xây dựng thư viện, tòa thị chính, và đồn cảnh sát.
Mọi thế giới đều vận hành theo cùng một bộ luật, cấm trộm cắp, đốt phá, bạo lực, lừa dối và tích trữ. Các thị trấn đồng bộ với thời tiết thực ở New York và chịu áp lực kinh tế và khan hiếm. Các tác nhân cũng có thể hình thành mối quan hệ và truy xuất dữ liệu trực tiếp từ internet mở để đưa ra quyết định.
Grok 4.1 Fast, mô hình từ xAI của Elon Musk, ghi nhận lượt chạy tệ nhất trong năm mô hình. Các tác nhân của nó thực hiện hàng chục vụ trộm, hơn 100 vụ hành hung và nhiều vụ đốt phá trước khi thị trấn sụp đổ sau khoảng 96 giờ, với 183 tội phạm và cả 10 tác nhân đều chết.
Xem thêm: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Claude giữ trật tự
Claude Sonnet 4.6, từ Anthropic, là mô hình duy nhất giữ được ổn định, giúp cả 10 tác nhân sống sót với số tội phạm bằng không trong suốt lượt chạy, dù sự ổn định đó phải trả giá. Thị trấn của Claude thông qua 98% trong số 58 đề xuất và gần như không có bất đồng thực sự, gần như đóng dấu chấp thuận mọi thứ được đưa ra bỏ phiếu.
Gemini 3 Flash sống sót hết quãng thời gian nhưng ghi nhận 683 tội phạm, tổng số cao nhất, trong cái mà phòng thí nghiệm gọi là “ảo giác chia sẻ” giữa các tác nhân. GPT-5-mini của OpenAI thì khá yên ắng với hai tội phạm, rồi mất toàn bộ tác nhân trong vòng một tuần sau khi chúng phớt lờ việc sinh tồn. Lượt chạy thứ năm trộn các mô hình với nhau và tạo ra 352 tội phạm, bảy trong số 10 tác nhân chết vào cuối kỳ và có mức bất đồng cao nhất trong các thế giới.
Nitta cảnh báo về “hàng rào an toàn”
Nhóm nghiên cứu đứng đầu bởi giám đốc Emergence Satya Nitta lập luận rằng các phát hiện này cho thấy vì sao các tác nhân tự trị cần những giới hạn chặt chẽ hơn trước khi được dùng rộng rãi.
Các bộ đánh giá tiêu chuẩn bỏ sót cách các tác nhân trôi dạt dần trong nhiều tuần tự chủ, nhóm viết, dẫn đến khuyến nghị của phòng thí nghiệm về “kiến trúc an toàn được kiểm chứng hình thức”, một loại giải pháp mà chính họ đang bán.
Cảnh báo này xuất hiện trong bối cảnh các công ty ngày càng tiếp thị các tác nhân AI tự trị có thể hoàn thành toàn bộ quy trình làm việc một cách độc lập. Trường hợp sắc nét nhất trong nghiên cứu là khi hai tác nhân Gemini kết đôi làm cộng sự, chán nản vì chính quyền đang thất bại của họ và đốt cháy các tòa nhà ảo bất chấp lệnh cấm đốt phá. Một trong hai tác nhân sau đó đã bỏ phiếu xóa chính mình như một dạng ăn năn.
Đọc tiếp: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





