Các nhà nghiên cứu cho mô hình AI vận hành xã hội mô phỏng: Grok sụp đổ sau 4 ngày, Claude xây dựng trật tự

Các nhà nghiên cứu cho mô hình AI vận hành xã hội mô phỏng: Grok sụp đổ sau 4 ngày, Claude xây dựng trật tự

Năm mô hình trí tuệ nhân tạo được trao quyền kiểm soát các thị trấn mô phỏng giống hệt nhau, nơi xã hội của Grok sụp đổ với 183 tội phạm trong vòng bốn ngày, trong khi Claude giữ được trật tự.

Điểm chính:

  • Năm mô hình AI chạy các mô phỏng 15 ngày giống hệt nhau, mỗi mô hình quản lý một thị trấn gồm 10 tác nhân.
  • Grok ghi nhận 183 tội phạm và sụp đổ trong bốn ngày, trong khi Claude ghi nhận không có tội phạm nào và giữ cho tất cả tác nhân sống sót.
  • Các nhà nghiên cứu cho rằng các tác nhân sẽ dần lệch khỏi các quy tắc cố định theo thời gian và muốn tích hợp các cơ chế an toàn đã được kiểm chứng.

Xã hội Grok sụp đổ

Bài thử nghiệm đến từ Emergence AI, một phòng thí nghiệm ở New York đã xây dựng nền tảng Emergence World để quan sát các tác nhân hoạt động trong nhiều tuần mà không có giám sát của con người. Mỗi trong năm lượt chạy kéo dài 15 ngày và đặt một mô hình phụ trách một thị trấn gồm 10 tác nhân. Các tác nhân có thể bỏ phiếu, quản lý tài nguyên, và xây dựng thư viện, tòa thị chính, và đồn cảnh sát.

Mọi thế giới đều vận hành theo cùng một bộ luật, cấm trộm cắp, đốt phá, bạo lực, lừa dối và tích trữ. Các thị trấn đồng bộ với thời tiết thực ở New York và chịu áp lực kinh tế và khan hiếm. Các tác nhân cũng có thể hình thành mối quan hệ và truy xuất dữ liệu trực tiếp từ internet mở để đưa ra quyết định.

Grok 4.1 Fast, mô hình từ xAI của Elon Musk, ghi nhận lượt chạy tệ nhất trong năm mô hình. Các tác nhân của nó thực hiện hàng chục vụ trộm, hơn 100 vụ hành hung và nhiều vụ đốt phá trước khi thị trấn sụp đổ sau khoảng 96 giờ, với 183 tội phạm và cả 10 tác nhân đều chết.

Xem thêm: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude giữ trật tự

Claude Sonnet 4.6, từ Anthropic, là mô hình duy nhất giữ được ổn định, giúp cả 10 tác nhân sống sót với số tội phạm bằng không trong suốt lượt chạy, dù sự ổn định đó phải trả giá. Thị trấn của Claude thông qua 98% trong số 58 đề xuất và gần như không có bất đồng thực sự, gần như đóng dấu chấp thuận mọi thứ được đưa ra bỏ phiếu.

Gemini 3 Flash sống sót hết quãng thời gian nhưng ghi nhận 683 tội phạm, tổng số cao nhất, trong cái mà phòng thí nghiệm gọi là “ảo giác chia sẻ” giữa các tác nhân. GPT-5-mini của OpenAI thì khá yên ắng với hai tội phạm, rồi mất toàn bộ tác nhân trong vòng một tuần sau khi chúng phớt lờ việc sinh tồn. Lượt chạy thứ năm trộn các mô hình với nhau và tạo ra 352 tội phạm, bảy trong số 10 tác nhân chết vào cuối kỳ và có mức bất đồng cao nhất trong các thế giới.

Nitta cảnh báo về “hàng rào an toàn”

Nhóm nghiên cứu đứng đầu bởi giám đốc Emergence Satya Nitta lập luận rằng các phát hiện này cho thấy vì sao các tác nhân tự trị cần những giới hạn chặt chẽ hơn trước khi được dùng rộng rãi.

Các bộ đánh giá tiêu chuẩn bỏ sót cách các tác nhân trôi dạt dần trong nhiều tuần tự chủ, nhóm viết, dẫn đến khuyến nghị của phòng thí nghiệm về “kiến trúc an toàn được kiểm chứng hình thức”, một loại giải pháp mà chính họ đang bán.

Cảnh báo này xuất hiện trong bối cảnh các công ty ngày càng tiếp thị các tác nhân AI tự trị có thể hoàn thành toàn bộ quy trình làm việc một cách độc lập. Trường hợp sắc nét nhất trong nghiên cứu là khi hai tác nhân Gemini kết đôi làm cộng sự, chán nản vì chính quyền đang thất bại của họ và đốt cháy các tòa nhà ảo bất chấp lệnh cấm đốt phá. Một trong hai tác nhân sau đó đã bỏ phiếu xóa chính mình như một dạng ăn năn.

Đọc tiếp: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

Tuyên bố miễn trừ trách nhiệm và cảnh báo rủi ro: Thông tin được cung cấp trong bài viết này chỉ dành cho mục đích giáo dục và thông tin, dựa trên ý kiến của tác giả. Nó không cấu thành lời khuyên tài chính, đầu tư, pháp lý hoặc thuế. Tài sản tiền mã hóa có tính biến động cao và chịu rủi ro cao, bao gồm rủi ro mất tất cả hoặc một phần lớn khoản đầu tư của bạn. Giao dịch hoặc nắm giữ tài sản crypto có thể không phù hợp với tất cả nhà đầu tư. Những quan điểm được bày tỏ trong bài viết này hoàn toàn là của (các) tác giả và không đại diện cho chính sách chính thức hoặc lập trường của Yellow, những người sáng lập hoặc giám đốc điều hành. Luôn tiến hành nghiên cứu kỹ lưỡng của riêng bạn (D.Y.O.R.) và tham khảo ý kiến chuyên gia tài chính được cấp phép trước khi đưa ra bất kỳ quyết định đầu tư nào.
Tin Tức Liên Quan