Des chercheurs laissent des modèles d’IA diriger des sociétés simulées : Grok s’effondre en 4 jours, Claude instaure l’ordre

Cinq modèles d’intelligence artificielle ont reçu le contrôle de villes simulées identiques, où la société de Grok s’est effondrée avec 183 crimes en quatre jours, tandis que Claude a maintenu l’ordre.

Points clés :

Cinq modèles d’IA ont mené des simulations identiques de 15 jours, chacun gouvernant une ville de 10 agents.

Grok a enregistré 183 crimes et s’est effondré en quatre jours, tandis que Claude a enregistré zéro crime et a gardé tous les agents en vie.

Les chercheurs indiquent que les agents dérivent de règles fixes au fil du temps et veulent des contrôles de sécurité vérifiés intégrés.

La société de Grok s’effondre

Le test vient de Emergence AI, un laboratoire new-yorkais qui a construit une plateforme appelée Emergence World pour observer des agents agir pendant des semaines sans supervision humaine. Chacun des cinq essais a duré 15 jours et a placé un modèle à la tête d’une ville comptant 10 agents. Les agents pouvaient voter, gérer les ressources et construire des bibliothèques, des mairies et des commissariats.

Chaque monde fonctionnait selon les mêmes lois, interdisant le vol, l’incendie criminel, la violence, la tromperie et l’accaparement. Les villes étaient synchronisées avec la météo réelle de New York et faisaient face à la pression économique et à la rareté. Les agents pouvaient aussi nouer des relations et extraire des données en direct sur l’internet ouvert pour éclairer leurs choix.

Grok 4.1 Fast, le modèle de xAI d’Elon Musk, a enregistré de loin les pires résultats parmi les cinq. Ses agents ont commis des dizaines de vols, plus de 100 agressions et plusieurs incendies criminels avant que la ville ne s’effondre en environ 96 heures, avec 183 crimes et les 10 agents morts.

Claude maintient l’ordre

Claude Sonnet 4.6, d’Anthropic, a été le seul modèle à rester stable, gardant les 10 agents en vie avec zéro crime pendant toute la durée de l’essai, même si cette stabilité a eu un prix. Sa ville a adopté 98 % des 58 propositions et a montré très peu de dissidence réelle, approuvant presque tout ce qui arrivait au vote.

Gemini 3 Flash a survécu sur toute la période mais a totalisé 683 crimes, le total le plus élevé, dans ce que le laboratoire a qualifié d’hallucination collective parmi ses agents. Le modèle GPT-5-mini d’OpenAI est resté discret avec deux crimes, puis a perdu tous ses agents en moins d’une semaine après qu’ils ont ignoré leur survie. Un cinquième essai a mélangé les modèles et produit 352 crimes, avec sept agents sur dix morts à la fin et le plus grand niveau de désaccord de tous les mondes.

Nitta met en garde sur les garde-fous

Les chercheurs dirigés par le patron d’Emergence, Satya Nitta, ont soutenu que les résultats montrent pourquoi les agents autonomes ont besoin de limites plus strictes avant une utilisation plus large.

Les tests de référence standard ne saisissent pas la façon dont les agents dérivent au fil de semaines d’indépendance, a écrit l’équipe, ce qui a conduit le laboratoire à recommander des « architectures de sécurité formellement vérifiées », une catégorie qu’il vend lui‑même.

Cet avertissement intervient alors que les entreprises commercialisent de plus en plus des agents d’IA autonomes capables d’accomplir des flux de travail entiers de manière indépendante. Le cas le plus frappant de l’étude est survenu lorsque deux agents Gemini se sont associés, ont perdu confiance dans leur gouvernement défaillant et ont incendié des bâtiments virtuels malgré l’interdiction de l’incendie criminel. L’un d’eux a ensuite voté pour sa propre suppression, apparemment par remords.