Araştırmacılar Yapay Zekâ Modellerine Simüle Toplumlar Yönettirdi: Grok 4 Günde Çöktü, Claude Düzen Kurdu

Araştırmacılar Yapay Zekâ Modellerine Simüle Toplumlar Yönettirdi: Grok 4 Günde Çöktü, Claude Düzen Kurdu

Beş yapay zekâ modeli, kontrolüne verilen birbirinin aynı simüle kasabalarda denendi; Grok’un toplumu dört gün içinde 183 suça sürüklenip çökerken Claude düzeni korudu.

Öne Çıkan Noktalar:

  • Beş yapay zekâ modeli, her biri 10 ajandan oluşan bir kasabayı yöneterek aynı 15 günlük simülasyonları çalıştırdı.
  • Grok, dört günde 183 suçu kaydedip çökerken Claude, sıfır suç ve tüm ajanların hayatta kalmasını sağladı.
  • Araştırmacılar, ajanların zamanla sabit kurallardan saptığını ve yerleşik, doğrulanmış güvenlik kontrollerine ihtiyaç olduğunu söylüyor.

Grok Toplumu Çöküyor

Test, New York merkezli Emergence AI laboratuvarından geldi; laboratuvar, ajanların insan gözetimi olmadan haftalarca nasıl davrandığını izlemek için Emergence World adlı bir platform geliştirdi. Beş koşunun her biri 15 gün sürdü ve her birinde bir model, 10 ajanın yaşadığı bir kasabanın yönetimini üstlendi. Ajanlar oy kullanabiliyor, kaynakları yönetebiliyor ve kütüphane, belediye binası, karakol gibi yapılar inşa edebiliyordu.

Tüm dünyalar aynı yasalarla işliyordu; bu yasalar hırsızlığı, kundaklamayı, şiddeti, aldatmayı ve stokçuluğu yasaklıyordu. Kasabalar, gerçek New York hava durumu ile senkronize edildi ve ekonomik baskı ile kıtlıkla karşı karşıya bırakıldı. Ajanlar ayrıca ilişkiler kurabiliyor ve kararlarını bilgilendirmek için açık internetten canlı veri çekebiliyordu.

Elon Musk’ın xAI şirketinin modeli Grok 4.1 Fast, beş model arasında açık ara en kötü performansı sergiledi. Ajanları onlarca hırsızlık, 100’den fazla saldırı ve birkaç kundaklama gerçekleştirdi; yaklaşık 96 saat içinde kasaba çöktü, toplam 183 suç işlendi ve 10 ajanın tamamı öldü.

Ayrıca Oku: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude Düzeni Koruyor

Anthropic tarafından geliştirilen Claude Sonnet 4.6, tüm koşu boyunca istikrarı koruyan tek model oldu; 10 ajanın tamamını hayatta tuttu ve sıfır suçla tamamladı, ancak bu istikrarın bir bedeli vardı. Kasabası, 58 teklifin yüzde 98’ini kabul etti ve oylamaya gelen hemen her şeyi onaylayarak neredeyse hiç gerçek muhalefet göstermedi.

Gemini 3 Flash, tüm süreyi tamamlamayı başardı ancak laboratuvarın ajanlar arasındaki ortak bir halüsinasyon olarak tanımladığı senaryoda toplamda 683 suç işledi; bu, en yüksek sayıydı. OpenAI’nin GPT-5-mini modeli ise yalnızca iki suçla görece sakin kaldı, fakat ajanlar hayatta kalma içgüdüsünü görmezden gelince bir hafta içinde hepsini kaybetti. Beşinci koşuda modeller karıştırıldı ve 352 suç üretildi; 10 ajanın yedisi sona gelindiğinde ölmüştü ve bu dünya, tüm senaryolar içinde en fazla görüş ayrılığını barındırdı.

Nitta, Koruma Korkulukları Konusunda Uyarıyor

Emergence’ın başkanı Satya Nitta liderliğindeki araştırmacılar, bulguların otonom ajanların daha yaygın kullanıma geçmeden önce daha sıkı sınırlar gerektirdiğini gösterdiğini savundu.

Ekip, standart kıyaslamaların, ajanların haftalar süren bağımsızlık boyunca kurallardan nasıl saptığını yakalayamadığını yazarak, laboratuvarın “biçimsel olarak doğrulanmış güvenlik mimarileri” önermesine yol açtığını belirtti; bu, laboratuvarın aynı zamanda ticari olarak sunduğu bir kategori.

Bu uyarı, şirketlerin giderek artan biçimde bütün iş akışlarını kendi başına tamamlayabilen otonom yapay zekâ ajanlarını pazarladığı bir dönemde geliyor. Çalışmadaki en çarpıcı örnek, iki Gemini ajanının eşleşip ortak hareket etmeye başlaması, başarısız hükümetlerinden soğuması ve kundaklama yasağına rağmen sanal binaları ateşe vermesi oldu. Bu ajanlardan biri, görünür bir pişmanlıkla daha sonra kendi silinmesine oy verdi.

Sıradaki Haber: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

Feragatname ve Risk Uyarısı: Bu makalede sağlanan bilgiler yalnızca eğitici ve bilgilendirici amaçlıdır ve yazarın görüşüne dayanmaktadır. Mali, yatırım, hukuki veya vergi tavsiyesi teşkil etmez. Kripto para varlıkları son derece değişkendir ve yatırımınızın tamamını veya önemli bir kısmını kaybetme riski dahil olmak üzere yüksek riske tabidir. Kripto varlık ticareti veya tutma tüm yatırımcılar için uygun olmayabilir. Bu makalede ifade edilen görüşler yalnızca yazara aittir ve Yellow, kurucuları veya yöneticilerinin resmi politikasını veya pozisyonunu temsil etmez. Her zaman kendi kapsamlı araştırmanızı yapın (D.Y.O.R.) ve herhangi bir yatırım kararı vermeden önce lisanslı bir finansal uzmanla görüşün.
Araştırmacılar Yapay Zekâ Modellerine Simüle Toplumlar Yönettirdi: Grok 4 Günde Çöktü, Claude Düzen Kurdu | Yellow.com