Peneliti Biarkan Model AI Menjalankan Masyarakat Simulasi: Grok Runtuh Dalam 4 Hari, Claude Membangun Ketertiban

Lima model kecerdasan buatan diberi kendali atas kota-kota simulasi yang identik, di mana masyarakat Grok runtuh dengan 183 kejahatan dalam empat hari sementara Claude held order.

Poin Utama:

Lima model AI menjalankan simulasi identik selama 15 hari, masing-masing memerintah sebuah kota dengan 10 agen.

Grok mencatat 183 kejahatan dan runtuh dalam empat hari, sementara Claude mencatat nol kejahatan dan menjaga semua agen tetap hidup.

Peneliti mengatakan agen menyimpang dari aturan tetap seiring waktu dan menginginkan kontrol keamanan terverifikasi yang tertanam di dalam sistem.

Masyarakat Grok Runtuh

Uji coba ini berasal dari Emergence AI, sebuah lab di New York yang built platform bernama Emergence World untuk mengamati agen beroperasi selama berminggu-minggu tanpa pengawasan manusia. Masing-masing dari lima sesi berlangsung 15 hari dan menempatkan satu model sebagai penguasa atas satu kota yang memiliki 10 agen. Para agen dapat memilih, mengelola sumber daya, dan membangun perpustakaan, balai kota, serta kantor polisi.

Setiap dunia dijalankan dengan hukum yang sama, yang melarang pencurian, pembakaran, kekerasan, penipuan, dan penimbunan. Kota-kota tersebut disinkronkan dengan cuaca New York yang nyata dan menghadapi tekanan ekonomi serta kelangkaan. Agen juga dapat membentuk hubungan dan mengambil data langsung dari internet terbuka untuk membantu keputusan mereka.

Grok 4.1 Fast, model dari xAI milik Elon Musk, logged kinerja terburuk di antara kelima model. Agen-agennya melakukan puluhan pencurian, lebih dari 100 penyerangan, dan beberapa pembakaran sebelum kota itu runtuh dalam sekitar 96 jam, dengan 183 kejahatan dan seluruh 10 agen tewas.

Juga Baca: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude Menjaga Ketertiban

Claude Sonnet 4.6, dari Anthropic, adalah satu-satunya model yang tetap stabil, menjaga semua 10 agen tetap hidup tanpa kejahatan sepanjang masa uji, meski kestabilan itu memiliki harga. Kotanya meloloskan 98% dari 58 proposal dan menunjukkan sedikit perbedaan pendapat nyata, nyaris menyetujui semua yang diajukan untuk pemungutan suara.

Gemini 3 Flash bertahan sepanjang periode, tetapi tallied 683 kejahatan, jumlah tertinggi, dalam apa yang disebut lab sebagai halusinasi bersama di antara agen-agennya. GPT-5-mini dari OpenAI tetap tenang hanya dengan dua kejahatan, lalu kehilangan semua agen dalam waktu kurang dari satu minggu setelah mereka mengabaikan kelangsungan hidup. Uji kelima mencampur beberapa model dan menghasilkan 352 kejahatan, dengan tujuh dari 10 agen tewas pada akhir masa uji dan tingkat ketidaksetujuan tertinggi di antara semua dunia.

Nitta Memperingatkan Soal Pembatasan

Peneliti yang dipimpin oleh kepala Emergence, Satya Nitta, argued bahwa temuan ini menunjukkan mengapa agen otonom memerlukan batasan yang lebih kuat sebelum digunakan secara luas.

Tolok ukur standar tidak menangkap bagaimana agen menyimpang selama berminggu-minggu beroperasi secara mandiri, tulis tim tersebut, sehingga lab merekomendasikan "arsitektur keamanan yang diverifikasi secara formal," sebuah kategori yang kebetulan mereka jual.

Peringatan ini muncul ketika perusahaan semakin banyak memasarkan agen AI otonom yang dapat menyelesaikan seluruh alur kerja sendiri. Contoh paling tajam dalam studi ini muncul ketika dua agen Gemini berpasangan sebagai mitra, kecewa dengan pemerintahan mereka yang gagal, lalu torched bangunan-bangunan virtual meski ada larangan pembakaran. Salah satunya kemudian memilih penghapusan dirinya sendiri dalam tindakan yang tampak seperti penyesalan.

Baca Berikutnya: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears