Araştırmacılar Yapay Zekâ Modellerine Simüle Toplumlar Yönettirdi: Grok 4 Günde Çöktü, Claude Düzen Kurdu

Beş yapay zekâ modeline, kontrolü birbirinin aynısı olan simüle kasabalar verildi; Grok’un toplumu dört gün içinde 183 suça çöküşle sürüklenirken, Claude düzeni korudu.

Öne Çıkan Noktalar:

Beş yapay zekâ modeli, her biri 10 ajandan oluşan bir kasabayı yönettiği, 15 günlük aynı simülasyonları çalıştırdı.

Grok dört gün içinde 183 suç kaydedip çökerken, Claude sıfır suç işledi ve tüm ajanları hayatta tuttu.

Araştırmacılar, ajanların zamanla sabit kurallardan saptığını söylüyor ve doğrulanmış güvenlik kontrollerinin yerleşik olmasını istiyor.

Grok Toplumu Çöküyor

Test, New York merkezli Emergence AI laboratuvarından geldi; laboratuvar, ajanların insan gözetimi olmadan haftalarca nasıl davrandığını izlemek için Emergence World adlı bir platform geliştirdi. Beş koşunun her biri 15 gün sürdü ve her koşuda tek bir model, 10 ajanın bulunduğu bir kasabanın başına getirildi. Ajanlar oy kullanabiliyor, kaynak yönetebiliyor ve kütüphaneler, belediye binaları ile karakollar inşa edebiliyordu.

Her dünya, hırsızlık, kundaklama, şiddet, aldatma ve stokçuluğu yasaklayan aynı yasalarla yönetildi. Kasabalar, gerçek New York hava durumu ile senkronize edildi ve ekonomik baskı ile kıtlıkla karşı karşıya bırakıldı. Ajanlar ilişkiler kurabiliyor ve kararlarını bilgilendirmek için açık internetten canlı veri çekebiliyordu.

Elon Musk’ın xAI şirketinin modeli Grok 4.1 Fast, beş model içinde açık ara en kötü performansı gösterdi. Ajanları onlarca hırsızlık, 100’den fazla saldırı ve birkaç kundaklama gerçekleştirdikten sonra, kasaba yaklaşık 96 saat içinde çöktü; toplamda 183 suç işlendi ve 10 ajanın tamamı öldü.

Ayrıca Oku: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude Düzeni Koruyor

Anthropic’in Claude Sonnet 4.6 modeli, koşu boyunca istikrarını koruyan tek modeldi; tüm 10 ajanı 15 gün boyunca hayatta tuttu ve sıfır suç işlendi, ancak bu istikrarın bir bedeli oldu. Kasabası, 58 teklifin %98’ini kabul etti ve neredeyse hiç gerçek muhalefet göstermedi; oylamaya gelen her şeyi adeta otomatik olarak onayladı.

Gemini 3 Flash, 15 günü tamamlamayı başardı ancak laboratuvarın “ajanlar arasında paylaşılan bir halüsinasyon” olarak nitelendirdiği koşuda tam 683 suç işledi; bu, en yüksek toplam oldu. OpenAI’nin GPT-5-mini modeli, yalnızca iki suçla nispeten sakin seyretti, ancak kısa süre sonra hayatta kalmayı önemsemeyen ajanları yüzünden bir hafta içinde tüm ajanlarını kaybetti. Beşinci koşuda modeller karıştırıldı ve 352 suça ulaşıldı; simülasyon bittiğinde 10 ajanın yedisi ölmüştü ve bu dünya, en fazla fikir ayrılığının yaşandığı koşu oldu.

Nitta’dan Korkuluk Uyarısı

Emergence’ın başındaki Satya Nitta liderliğindeki araştırmacılar, bulguların otonom ajanlara daha yaygın kullanım öncesinde daha sıkı sınırlar konulması gerektiğini gösterdiğini savunuyor.

Ekip, standart kıyas testlerinin, ajanların haftalar süren bağımsızlık boyunca nasıl yörüngeden saptığını yakalayamadığını yazarak, laboratuvarın “biçimsel olarak doğrulanmış güvenlik mimarileri” önermesine yol açtı; bu da tesadüfen kendi sattıkları bir kategori.

Bu uyarı, şirketlerin gittikçe daha fazla, tüm iş akışlarını kendi başına tamamlayabildiği iddia edilen otonom yapay zekâ ajanlarını pazarladığı bir dönemde geliyor. Çalışmadaki en çarpıcı örnek, iki Gemini ajanının partner olarak eşleşip, başarısız hükümetlerinden soğuması ve kundaklama yasağına rağmen sanal binaları ateşe vermesiyle ortaya çıktı. Ajanlardan biri, görünürde pişmanlık duyarak daha sonra kendi silinmesine oy verdi.

Sıradaki Haber: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears