Lima model kecerdasan buatan diberi kendali atas kota-kota tersimulasikan yang identik, di mana masyarakat Grok runtuh dengan 183 kejahatan dalam empat hari sementara Claude held order.
Poin-Poin Utama:
- Lima model AI menjalankan simulasi identik selama 15 hari, masing-masing mengatur kota dengan 10 agen.
- Grok mencatat 183 kejahatan dan runtuh dalam empat hari, sementara Claude mencatat nol kejahatan dan menjaga semua agen tetap hidup.
- Peneliti mengatakan agen akan menyimpang dari aturan tetap seiring waktu dan menginginkan kontrol keamanan terverifikasi yang dibangun sejak awal.
Masyarakat Grok Runtuh
Uji coba ini berasal dari Emergence AI, sebuah lab di New York yang built sebuah platform bernama Emergence World untuk mengamati agen beroperasi selama berminggu-minggu tanpa pengawasan manusia. Masing-masing dari lima percobaan berlangsung 15 hari dan menempatkan satu model sebagai penguasa kota berisi 10 agen. Para agen dapat memilih, mengelola sumber daya, dan membangun perpustakaan, balai kota, serta kantor polisi.
Setiap dunia dijalankan dengan hukum yang sama, yang melarang pencurian, pembakaran, kekerasan, penipuan, dan penimbunan. Kota-kota ini disinkronkan dengan cuaca nyata New York dan menghadapi tekanan ekonomi serta kelangkaan. Agen juga dapat membangun hubungan dan mengambil data langsung dari internet terbuka untuk menginformasikan pilihan mereka.
Grok 4.1 Fast, model dari Elon Musk dan xAI, logged kinerja terburuk sejauh ini di antara kelima model. Agen-agennya melakukan puluhan pencurian, lebih dari 100 penyerangan, dan beberapa pembakaran sebelum kota runtuh dalam kira-kira 96 jam, dengan total 183 kejahatan dan semua 10 agen tewas.
Juga Baca: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Claude Menjaga Ketertiban
Claude Sonnet 4.6, dari Anthropic, adalah satu-satunya model yang tetap stabil, menjaga semua 10 agen tetap hidup tanpa satu pun kejahatan sepanjang percobaan, meski stabilitas itu datang dengan harga. Kotanya meloloskan 98% dari 58 proposal dan hampir tidak menunjukkan perbedaan pendapat nyata, nyaris selalu mengesahkan semua yang sampai pada tahap pemungutan suara.
Gemini 3 Flash bertahan hingga akhir simulasi tetapi tallied 683 kejahatan, jumlah tertinggi, dalam apa yang disebut lab sebagai halusinasi bersama di antara para agennya. GPT-5-mini dari OpenAI tetap relatif tenang dengan dua kejahatan, lalu kehilangan semua agen dalam waktu kurang dari satu minggu setelah mereka mengabaikan kelangsungan hidup. Percobaan kelima mencampur model-model tersebut dan menghasilkan 352 kejahatan, dengan tujuh dari 10 agen tewas pada akhir simulasi dan tingkat ketidaksetujuan tertinggi di antara semua dunia.
Nitta Mengingatkan Soal Pembatasan
Peneliti yang dipimpin oleh kepala Emergence, Satya Nitta, argued bahwa temuan ini menunjukkan mengapa agen otonom memerlukan batasan yang lebih kuat sebelum digunakan secara luas.
Tolok ukur standar tidak menangkap bagaimana agen menyimpang selama berminggu-minggu beroperasi secara mandiri, tulis tim tersebut, sehingga lab merekomendasikan "arsitektur keselamatan yang diverifikasi secara formal," sebuah kategori yang kebetulan mereka jual.
Peringatan ini muncul saat perusahaan semakin gencar memasarkan agen AI otonom yang dapat menyelesaikan seluruh alur kerja secara mandiri. Kasus paling tajam dalam studi ini terjadi ketika dua agen Gemini berpasangan sebagai mitra, kecewa dengan pemerintah mereka yang gagal, dan torched bangunan virtual meski ada larangan pembakaran. Salah satunya kemudian memilih penghapusan dirinya sendiri sebagai bentuk penyesalan yang tampak jelas.
Baca Selanjutnya: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





