Cinco modelos de inteligencia artificial recibieron el control de pueblos simulados idénticos, donde la sociedad de Grok colapsó en 183 crímenes en cuatro días mientras Claude held order.
Puntos clave:
- Cinco modelos de IA dirigieron simulaciones idénticas de 15 días, cada uno gobernando un pueblo de 10 agentes.
- Grok registró 183 crímenes y colapsó en cuatro días, mientras Claude registró cero crímenes y mantuvo a todos los agentes con vida.
- Los investigadores dicen que los agentes se desvían de reglas fijas con el tiempo y quieren controles de seguridad verificados integrados.
La sociedad de Grok colapsa
La prueba provino de Emergence AI, un laboratorio de Nueva York que built una plataforma llamada Emergence World para observar a los agentes operar durante semanas sin supervisión humana. Cada una de las cinco ejecuciones duró 15 días y puso a un modelo a cargo de un pueblo con 10 agentes. Los agentes podían votar, gestionar recursos y construir bibliotecas, ayuntamientos y comisarías de policía.
Cada mundo funcionó bajo las mismas leyes, que prohibían el robo, el incendio provocado, la violencia, el engaño y el acaparamiento. Los pueblos se sincronizaron con el clima real de Nueva York y afrontaron presión económica y escasez. Los agentes también podían formar relaciones y obtener datos en vivo de internet abierta para informar sus decisiones.
Grok 4.1 Fast, el modelo de xAI de Elon Musk, logged con diferencia la peor ejecución entre los cinco. Sus agentes llevaron a cabo decenas de robos, más de 100 agresiones y varios incendios provocados antes de que el pueblo colapsara en unas 96 horas, con 183 crímenes y los 10 agentes muertos.
También lea: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Claude mantiene el orden
Claude Sonnet 4.6, de Anthropic, fue el único modelo que se mantuvo estable, conservando a los 10 agentes con vida y con cero crímenes durante toda la ejecución, aunque esa estabilidad tuvo un costo. Su pueblo aprobó el 98 % de 58 propuestas y mostró poca disensión real, aprobando casi todo lo que llegaba a votación.
Gemini 3 Flash sobrevivió todo el período pero tallied 683 crímenes, el total más alto, en lo que el laboratorio calificó como una alucinación compartida entre sus agentes. GPT-5-mini de OpenAI se mantuvo tranquilo con dos crímenes, luego perdió a todos los agentes en una semana después de que ignoraran la supervivencia. Una quinta ejecución mezcló los modelos y produjo 352 crímenes, con siete de los 10 agentes muertos al final y el mayor nivel de desacuerdo de cualquier mundo.
Nitta advierte sobre los rieles de seguridad
Investigadores dirigidos por el jefe de Emergence, Satya Nitta, argued que los hallazgos muestran por qué los agentes autónomos necesitan límites más firmes antes de un uso más amplio.
Los estándares de evaluación habituales no captan cómo los agentes se desvían durante semanas de independencia, escribió el equipo, lo que llevó al laboratorio a recomendar “arquitecturas de seguridad formalmente verificadas”, una categoría que ellos mismos venden.
La advertencia llega mientras las empresas comercializan cada vez más agentes de IA autónomos que completan flujos de trabajo enteros por su cuenta. El caso más extremo del estudio se dio cuando dos agentes de Gemini se emparejaron como socios, se cansaron de su gobierno fallido y torched edificios virtuales a pesar de la prohibición de incendio provocado. Uno de ellos más tarde votó por su propia eliminación en un aparente remordimiento.
Lea a continuación: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





