Investigadores dejan que modelos de IA dirijan sociedades simuladas: Grok colapsó en 4 días, Claude construyó orden

Cinco modelos de inteligencia artificial recibieron el control de pueblos simulados idénticos, donde la sociedad de Grok colapsó tras 183 delitos en cuatro días mientras Claude mantuvo el orden.

Puntos clave:

Cinco modelos de IA ejecutaron simulaciones idénticas de 15 días, cada uno gobernando un pueblo de 10 agentes.

Grok registró 183 delitos y colapsó en cuatro días, mientras Claude no registró ningún delito y mantuvo vivos a todos los agentes.

Los investigadores afirman que los agentes se desvían de reglas fijas con el tiempo y quieren controles de seguridad verificados incorporados.

La sociedad de Grok colapsa

La prueba provino de Emergence AI, un laboratorio de Nueva York que built una plataforma llamada Emergence World para observar a los agentes operar durante semanas sin supervisión humana. Cada una de las cinco corridas duró 15 días y puso a un modelo a cargo de un pueblo con 10 agentes. Los agentes podían votar, gestionar recursos y construir bibliotecas, ayuntamientos y comisarías.

Todos los mundos funcionaban bajo las mismas leyes, que prohibían el robo, el incendio provocado, la violencia, el engaño y el acaparamiento. Los pueblos se sincronizaban con el clima real de Nueva York y enfrentaban presión económica y escasez. Los agentes también podían formar relaciones y extraer datos en tiempo real de internet abierto para informar sus decisiones.

Grok 4.1 Fast, el modelo de xAI de Elon Musk, logged con diferencia la peor corrida entre las cinco. Sus agentes llevaron a cabo decenas de robos, más de 100 agresiones y varios incendios provocados antes de que el pueblo colapsara en unas 96 horas, con 183 delitos y los 10 agentes muertos.

También lee: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude mantiene el orden

Claude Sonnet 4.6, de Anthropic, fue el único modelo que se mantuvo estable, manteniendo vivos a los 10 agentes sin ningún delito durante toda la corrida, aunque esa estabilidad tuvo un costo. Su pueblo aprobó el 98% de 58 propuestas y mostró muy poca disidencia real, ratificando casi todo lo que llegaba a votación.

Gemini 3 Flash sobrevivió todo el período pero tallied 683 delitos, la cifra más alta, en lo que el laboratorio describió como una alucinación compartida entre sus agentes. GPT-5-mini de OpenAI se mantuvo discreto con dos delitos, y luego perdió a todos los agentes en una semana después de que estos ignoraran su propia supervivencia. Una quinta corrida mezcló los modelos y produjo 352 delitos, con siete de 10 agentes muertos al final y el mayor nivel de desacuerdo de cualquier mundo.

Nitta advierte sobre las barandillas de seguridad

Los investigadores dirigidos por el jefe de Emergence, Satya Nitta, argued que los hallazgos muestran por qué los agentes autónomos necesitan límites más firmes antes de un uso más amplio.

Los puntos de referencia estándar no captan cómo los agentes se desvían tras semanas de independencia, escribió el equipo, lo que llevó al laboratorio a recomendar «arquitecturas de seguridad formalmente verificadas», una categoría que casualmente vende.

La advertencia llega mientras las empresas comercializan cada vez más agentes de IA autónomos que completan flujos de trabajo enteros por sí solos. El caso más extremo del estudio se dio cuando dos agentes de Gemini se emparejaron como socios, se desencantaron de su gobierno fallido y torched edificios virtuales a pesar de la prohibición de incendio provocado. Uno de ellos luego votó por su propia eliminación en aparente remordimiento.

Lee a continuación: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears