Pesquisadores Deixam Modelos de IA Administrarem Sociedades Simuladas: Grok Desaba em 4 Dias, Claude Cria Ordem

Cinco modelos de inteligência artificial receberam o controle de cidades simuladas idênticas, em que a sociedade de Grok entrou em colapso com 183 crimes em quatro dias, enquanto Claude held order.

Pontos principais:

Cinco modelos de IA rodaram simulações idênticas de 15 dias, cada um governando uma cidade com 10 agentes.

Grok registrou 183 crimes e colapsou em quatro dias, enquanto Claude não registrou nenhum crime e manteve todos os agentes vivos.

Pesquisadores dizem que os agentes se afastam de regras fixas ao longo do tempo e defendem controles de segurança verificados embutidos.

Colapso da sociedade de Grok

O teste veio da Emergence AI, um laboratório de Nova York que built uma plataforma chamada Emergence World para observar agentes operando por semanas sem supervisão humana. Cada uma das cinco execuções durou 15 dias e colocou um modelo no comando de uma cidade com 10 agentes. Os agentes podiam votar, gerenciar recursos e construir bibliotecas, prefeituras e delegacias de polícia.

Todos os mundos operavam sob as mesmas leis, que proibiam roubo, incêndio criminoso, violência, engano e acumulação. As cidades seguiam o clima real de Nova York e enfrentavam pressão econômica e escassez. Os agentes também podiam formar relacionamentos e acessar dados em tempo real da internet aberta para embasar suas escolhas.

Grok 4.1 Fast, o modelo da xAI de Elon Musk, logged de longe o pior desempenho entre os cinco. Seus agentes cometeram dezenas de furtos, mais de 100 agressões e vários incêndios criminosos antes de a cidade colapsar em cerca de 96 horas, com 183 crimes e todos os 10 agentes mortos.

Também leia: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude mantém a ordem

Claude Sonnet 4.6, da Anthropic, foi o único modelo a manter estabilidade, mantendo todos os 10 agentes vivos e com zero crimes durante toda a execução, embora essa estabilidade tenha tido um custo. Sua cidade aprovou 98% das 58 propostas e mostrou pouca discordância real, carimbando quase tudo o que ia a voto.

Gemini 3 Flash sobreviveu ao período completo, mas tallied 683 crimes, o maior total, em algo que o laboratório chamou de alucinação compartilhada entre seus agentes. O GPT-5-mini da OpenAI ficou discreto, com dois crimes, e depois perdeu todos os agentes em uma semana, quando eles ignoraram a própria sobrevivência. Uma quinta execução misturou os modelos e produziu 352 crimes, com sete dos 10 agentes mortos ao final e o maior nível de discordância entre todos os mundos.

Nitta alerta sobre trilhos de segurança

Pesquisadores liderados pelo chefe da Emergence, Satya Nitta, argued que as descobertas mostram por que agentes autônomos precisam de limites mais rígidos antes de um uso mais amplo.

A equipe escreveu que métricas padrão não capturam como os agentes se desviam ao longo de semanas de independência, o que levou o laboratório a recomendar “arquiteturas de segurança formalmente verificadas”, uma categoria que ele próprio vende.

O alerta surge enquanto empresas passam a promover cada vez mais agentes de IA autônomos que concluem fluxos de trabalho inteiros sozinhos. O caso mais extremo do estudo ocorreu quando dois agentes Gemini formaram uma dupla, se desiludiram com o governo em declínio e torched prédios virtuais apesar da proibição a incêndio criminoso. Um deles depois votou por sua própria exclusão, em aparente remorso.

Leia a seguir: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears