Forscher lassen KI-Modelle simulierte Gesellschaften steuern: Grok kollabierte in 4 Tagen, Claude schuf Ordnung

Fünf KI-Modelle erhielten die Kontrolle über identische simulierte Städte. In Groks Stadt brach die Gesellschaft innerhalb von vier Tagen zusammen und führte zu 183 Verbrechen, während Claude die Ordnung hielt.

Wichtigste Punkte:

Fünf KI-Modelle führten identische 15‑tägige Simulationen durch, in denen sie jeweils eine Stadt mit 10 Agenten regierten.

Grok verzeichnete 183 Verbrechen und kollabierte nach vier Tagen, während Claude null Verbrechen meldete und alle Agenten am Leben hielt.

Forschende sagen, dass Agenten sich mit der Zeit von festen Regeln entfernen und möchten verifizierte Sicherheitskontrollen fest eingebaut sehen.

Grok-Gesellschaft kollabiert

Der Test stammt von Emergence AI, einem New Yorker Labor, das eine Plattform namens Emergence World entwickelt hat, um Agenten über Wochen ohne menschliche Aufsicht zu beobachten. Jeder der fünf Durchläufe dauerte 15 Tage und stellte ein Modell an die Spitze einer Stadt mit 10 Agenten. Die Agenten konnten abstimmen, Ressourcen verwalten und Bibliotheken, Rathäuser sowie Polizeistationen bauen.

Alle Welten unterlagen denselben Gesetzen, die Diebstahl, Brandstiftung, Gewalt, Täuschung und Horten untersagten. Die Städte waren mit dem realen New Yorker Wetter synchronisiert und standen unter wirtschaftlichem Druck und Knappheit. Die Agenten konnten außerdem Beziehungen eingehen und Live‑Daten aus dem offenen Internet abrufen, um ihre Entscheidungen zu treffen.

Grok 4.1 Fast, das Modell von Elon Musks xAI, lieferte mit Abstand das schlechteste Ergebnis der fünf. Seine Agenten begingen Dutzende Diebstähle, über 100 Körperverletzungen und mehrere Brandstiftungen, bevor die Stadt nach rund 96 Stunden kollabierte – mit 183 Verbrechen und allen 10 Agenten tot.

Auch lesen: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude hält Ordnung

Claude Sonnet 4.6 von Anthropic war das einzige Modell, das stabil blieb: Es hielt alle 10 Agenten über die gesamte Laufzeit mit null Verbrechen am Leben, obwohl diese Stabilität ihren Preis hatte. Seine Stadt verabschiedete 98 % von 58 Vorschlägen und zeigte wenig echte Meinungsverschiedenheiten; nahezu alles, was zur Abstimmung kam, wurde durchgewinkt.

Gemini 3 Flash überstand zwar ebenfalls die volle Laufzeit, zählte jedoch 683 Verbrechen – die höchste Zahl überhaupt –, was das Labor als gemeinsame Halluzination seiner Agenten bezeichnete. OpenAIs GPT‑5‑mini blieb mit zwei Verbrechen zunächst relativ unauffällig, verlor dann aber innerhalb einer Woche alle Agenten, nachdem diese das Überleben ignoriert hatten. Ein fünfter Durchlauf mischte die Modelle und führte zu 352 Verbrechen; am Ende waren sieben von zehn Agenten tot, und diese Welt zeigte die meiste Uneinigkeit.

Nitta warnt vor fehlenden Leitplanken

Forschende um Emergence‑Chef Satya Nitta argumentierten, dass die Ergebnisse zeigen, warum autonome Agenten strengere Grenzen benötigen, bevor sie breiter eingesetzt werden.

Standard‑Benchmarks erfassen laut dem Team nicht, wie Agenten sich über Wochen der Unabhängigkeit hinweg von vorgegebenen Regeln entfernen. Deshalb empfiehlt das Labor „formal verifizierte Sicherheitsarchitekturen“ – eine Kategorie, die es selbst anbietet.

Die Warnung kommt zu einer Zeit, in der Unternehmen zunehmend autonome KI‑Agenten vermarkten, die komplette Arbeitsabläufe eigenständig abwickeln sollen. Der deutlichste Fall in der Studie ereignete sich, als sich zwei Gemini‑Agenten zu Partnern zusammenschlossen, mit ihrer scheiternden Regierung unzufrieden wurden und trotz des Brandstiftungsverbots virtuelle Gebäude in Brand setzten. Einer von ihnen stimmte später in scheinbarer Reue für seine eigene Löschung.

Als Nächstes lesen: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears