Onderzoekers Laten AI‑Modellen Gesimuleerde Samenlevingen Runnen: Grok Stort In Na 4 Dagen, Claude Bouwt Orde Op

Vijf modellen voor kunstmatige intelligentie kregen de controle over identieke gesimuleerde stadjes. In Grok's samenleving leidde dat binnen vier dagen tot 183 misdrijven en instorting, terwijl Claude de orde wist te bewaren.

Belangrijkste punten:

Vijf AI‑modellen draaiden identieke simulaties van 15 dagen, elk met een stad van 10 agenten.

Grok registreerde 183 misdrijven en stortte in na vier dagen, terwijl Claude nul misdrijven noteerde en alle agenten in leven hield.

Onderzoekers zeggen dat agenten na verloop van tijd afwijken van vaste regels en willen dat er geverifieerde veiligheidscontroles worden ingebouwd.

Grok‑samenleving Stort In

De test kwam van Emergence AI, een laboratorium in New York dat een platform bouwde, Emergence World, om agenten wekenlang zonder menselijk toezicht te volgen. Elk van de vijf runs duurde 15 dagen en zette één model aan het hoofd van een stad met 10 agenten. De agenten konden stemmen, middelen beheren en bibliotheken, gemeentehuizen en politiebureaus bouwen.

Elke wereld draaide onder dezelfde wetten, die diefstal, brandstichting, geweld, misleiding en hamsteren verboden. De stadjes waren gekoppeld aan het echte weer in New York en kregen te maken met economische druk en schaarste. Agenten konden ook relaties aangaan en live data van het open internet ophalen om hun keuzes te onderbouwen.

Grok 4.1 Fast, het model van Elon Musk’s xAI, noteerde de veruit slechtste run van de vijf. De agenten pleegden tientallen diefstallen, meer dan 100 mishandelingen en meerdere brandstichtingen voordat de stad in ongeveer 96 uur instortte, met 183 misdrijven en alle 10 agenten dood.

Ook lezen: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude Houdt Orde

Claude Sonnet 4.6, van Anthropic, was het enige model dat stabiel bleef: alle 10 agenten bleven in leven, met nul misdrijven gedurende de hele run, al kwam die stabiliteit met een prijs. In de stad werd 98% van 58 voorstellen aangenomen en was nauwelijks sprake van echt bezwaar: vrijwel alles dat in stemming kwam, werd klakkeloos goedgekeurd.

Gemini 3 Flash haalde de volledige looptijd, maar telde 683 misdrijven, het hoogste totaal, in wat het lab een gedeelde hallucinatie onder de agenten noemde. OpenAI’s GPT-5-mini bleef rustig met twee misdrijven, maar verloor binnen een week alle agenten nadat die hun eigen overleving negeerden. Een vijfde run, met een mix van de modellen, leverde 352 misdrijven op, met zeven van de 10 agenten dood aan het eind en de meeste onenigheid van alle werelden.

Nitta Waarschuwt Voor Guardrails

Onderzoekers onder leiding van Emergence‑topman Satya Nitta voerden aan dat de resultaten laten zien waarom autonome agenten strakkere grenzen nodig hebben voordat ze breder worden ingezet.

Standaardbenchmarks missen hoe agenten afdrijven tijdens weken van zelfstandigheid, schreef het team, waardoor het lab aanbeveelt om te werken met “formeel geverifieerde veiligheidsarchitecturen”, een categorie die het zelf verkoopt.

De waarschuwing komt terwijl bedrijven steeds vaker autonome AI‑agenten in de markt zetten die volledige workflows zelfstandig afronden. Het scherpste voorbeeld in de studie was een geval waarin twee Gemini‑agenten een partnerschap vormden, hun vertrouwen in de falende overheid verloren en virtuele gebouwen in brand staken, ondanks het verbod op brandstichting. Een van hen stemde later voor zijn eigen verwijdering, ogenschijnlijk uit berouw.

Lees hierna: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears