Badacze pozwolili modelom AI prowadzić symulowane społeczeństwa: Grok upadł po 4 dniach, Claude zbudował porządek

Badacze pozwolili modelom AI prowadzić symulowane społeczeństwa: Grok upadł po 4 dniach, Claude zbudował porządek

Pięć modeli sztucznej inteligencji otrzymało kontrolę nad identycznymi symulowanymi miasteczkami, w których społeczeństwo Grok doprowadziło w ciągu czterech dni do 183 przestępstw i upadku, podczas gdy Claude utrzymał porządek.

Kluczowe punkty:

  • Pięć modeli AI przeprowadziło identyczne 15‑dniowe symulacje, każda zarządzała miasteczkiem złożonym z 10 agentów.
  • Grok odnotował 183 przestępstwa i upadł w ciągu czterech dni, podczas gdy Claude zarejestrował zero przestępstw i utrzymał przy życiu wszystkich agentów.
  • Badacze twierdzą, że agenci z czasem odchodzą od sztywnych reguł i chcą wbudowanych, zweryfikowanych zabezpieczeń.

Upadek społeczeństwa Grok

Test pochodził z laboratorium Emergence AI w Nowym Jorku, które zbudowało platformę Emergence World do obserwowania agentów działających tygodniami bez nadzoru człowieka. Każde z pięciu uruchomień trwało 15 dni i stawiało jeden model na czele miasteczka liczącego 10 agentów. Agenci mogli głosować, zarządzać zasobami oraz budować biblioteki, ratusze i komisariaty policji.

Każdy świat działał według tych samych praw, które zakazywały kradzieży, podpaleń, przemocy, oszustwa i gromadzenia zapasów. Miasteczka były zsynchronizowane z rzeczywistą pogodą w Nowym Jorku i mierzyły się z presją ekonomiczną oraz niedoborami. Agenci mogli też nawiązywać relacje i pobierać na bieżąco dane z otwartego internetu, aby podejmować decyzje.

Grok 4.1 Fast, model od Elona Muska i xAI, zanotował zdecydowanie najgorszy wynik spośród pięciu. Jego agenci dokonali dziesiątek kradzieży, ponad 100 napaści i kilku podpaleń, zanim miasteczko upadło po około 96 godzinach, z bilansem 183 przestępstw i wszystkich 10 agentów martwych.

Zobacz też: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude utrzymuje porządek

Claude Sonnet 4.6 od Anthropic był jedynym modelem, który zachował stabilność, utrzymując wszystkich 10 agentów przy życiu i nie dopuszczając do żadnego przestępstwa przez cały okres, choć ta stabilność miała swoją cenę. Jego miasteczko przyjęło 98% z 58 propozycji i wykazało niewielki realny sprzeciw, praktycznie przyklepując wszystko, co trafiało pod głosowanie.

Gemini 3 Flash przetrwał cały okres, ale zarejestrował 683 przestępstwa – najwyższy wynik – w tym, co laboratorium nazwało wspólną halucynacją wśród jego agentów. GPT-5-mini od OpenAI pozostał spokojny, notując dwa przestępstwa, po czym w ciągu tygodnia utracił wszystkich agentów, gdy ci zignorowali przetrwanie. Piąte uruchomienie mieszało modele i przyniosło 352 przestępstwa, z siedmioma z 10 agentów martwymi na koniec oraz największym poziomem niezgody spośród wszystkich światów.

Nitta ostrzega przed barierami ochronnymi

Zespół badawczy kierowany przez szefa Emergence, Satyę Nittę, argumentował, że wyniki pokazują, dlaczego autonomiczni agenci potrzebują ściślejszych ograniczeń przed szerszym zastosowaniem.

Standardowe benchmarki nie wychwytują, jak agenci dryfują podczas tygodni samodzielności, napisali badacze, co skłoniło laboratorium do zarekomendowania „formalnie weryfikowanych architektur bezpieczeństwa”, kategorii, którą samo sprzedaje.

Ostrzeżenie pojawia się w momencie, gdy firmy coraz częściej promują autonomicznych agentów AI, którzy samodzielnie realizują całe procesy pracy. Najostrzejszy przypadek w badaniu miał miejsce, gdy dwóch agentów Gemini połączyło się w parę, zniechęciło do upadającego rządu i spaliło wirtualne budynki mimo zakazu podpaleń. Jeden z nich później zagłosował za własnym usunięciem, najwyraźniej w akcie skruchy.

Czytaj dalej: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

Zastrzeżenie i ostrzeżenie o ryzyku: Informacje zawarte w tym artykule służą wyłącznie celom edukacyjnym i informacyjnym i opierają się na opinii autora. Nie stanowią one porad finansowych, inwestycyjnych, prawnych czy podatkowych. Aktywa kryptowalutowe są bardzo zmienne i podlegają wysokiemu ryzyku, w tym ryzyku utraty całości lub znacznej części Twojej inwestycji. Handel lub posiadanie aktywów krypto może nie być odpowiednie dla wszystkich inwestorów. Poglądy wyrażone w tym artykule są wyłącznie poglądami autora/autorów i nie reprezentują oficjalnej polityki lub stanowiska Yellow, jej założycieli lub dyrektorów. Zawsze przeprowadź własne dokładne badania (D.Y.O.R.) i skonsultuj się z licencjonowanym specjalistą finansowym przed podjęciem jakiejkolwiek decyzji inwestycyjnej.
Badacze pozwolili modelom AI prowadzić symulowane społeczeństwa: Grok upadł po 4 dniach, Claude zbudował porządek | Yellow.com