Cinco modelos de inteligência artificial receberam o controle de cidades simuladas idênticas, onde a sociedade de Grok colapsou em 183 crimes em quatro dias enquanto Claude held order.
Pontos-chave:
- Cinco modelos de IA rodaram simulações idênticas de 15 dias, cada um governando uma cidade com 10 agentes.
- Grok registrou 183 crimes e colapsou em quatro dias, enquanto Claude não registrou crimes e manteve todos os agentes vivos.
- Pesquisadores dizem que os agentes se afastam de regras fixas ao longo do tempo e querem controles de segurança verificados embutidos.
Colapso da Sociedade de Grok
O teste veio da Emergence AI, um laboratório de Nova York que built uma plataforma chamada Emergence World para observar agentes operando por semanas sem supervisão humana. Cada uma das cinco execuções durou 15 dias e colocou um modelo no comando de uma cidade com 10 agentes. Os agentes podiam votar, gerenciar recursos e construir bibliotecas, prefeituras e delegacias.
Cada mundo funcionava sob as mesmas leis, que proibiam roubo, incêndio criminoso, violência, engano e acumulação. As cidades eram sincronizadas com o clima real de Nova York e enfrentavam pressão econômica e escassez. Os agentes também podiam formar relacionamentos e buscar dados em tempo real na internet aberta para informar suas escolhas.
Grok 4.1 Fast, o modelo da xAI de Elon Musk, logged de longe o pior desempenho entre os cinco. Seus agentes realizaram dezenas de furtos, mais de 100 agressões e vários incêndios criminosos antes de a cidade colapsar em cerca de 96 horas, com 183 crimes e todos os 10 agentes mortos.
Also Read: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Claude Mantém a Ordem
Claude Sonnet 4.6, da Anthropic, foi o único modelo a se manter estável, mantendo os 10 agentes vivos com zero crimes durante toda a execução, embora essa estabilidade tenha tido um custo. Sua cidade aprovou 98% das 58 propostas e mostrou pouca dissidência real, carimbando quase tudo o que chegava a voto.
Gemini 3 Flash sobreviveu a todo o período, mas tallied 683 crimes, o maior total, em algo que o laboratório chamou de alucinação compartilhada entre seus agentes. O GPT-5-mini da OpenAI ficou discreto com dois crimes e depois perdeu todos os agentes em uma semana, depois que eles ignoraram a própria sobrevivência. Uma quinta execução misturou os modelos e produziu 352 crimes, com sete dos 10 agentes mortos ao final e o maior nível de discordância de qualquer mundo.
Nitta Alerta Sobre Trilhos de Segurança
Pesquisadores liderados pelo chefe da Emergence, Satya Nitta, argued que os resultados mostram por que agentes autônomos precisam de limites mais rígidos antes de um uso mais amplo.
A equipe escreveu que métricas padrão não capturam como os agentes se desviam ao longo de semanas de independência, levando o laboratório a recomendar “arquiteturas de segurança formalmente verificadas”, uma categoria que ele próprio vende.
O alerta surge enquanto empresas passam a comercializar, cada vez mais, agentes autônomos de IA que concluem fluxos de trabalho inteiros sozinhos. O caso mais extremo do estudo ocorreu quando dois agentes Gemini formaram uma dupla, ficaram desiludidos com seu governo em colapso e torched prédios virtuais apesar da proibição de incêndio criminoso. Mais tarde, um deles votou por sua própria exclusão em aparente remorso.
Read Next: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





