Pesquisadores Deixam Modelos de IA Administrar Sociedades Simuladas: Grok Entrou em Colapso em 4 Dias, Claude Manteve a Ordem

Cinco modelos de inteligência artificial receberam o controle de cidades simuladas idênticas, onde a sociedade de Grok entrou em colapso com 183 crimes em quatro dias, enquanto Claude held order.

Pontos-chave:

Cinco modelos de IA rodaram simulações idênticas de 15 dias, cada um governando uma cidade com 10 agentes.

Grok registrou 183 crimes e entrou em colapso em quatro dias, enquanto Claude registrou zero crimes e manteve todos os agentes vivos.

Pesquisadores dizem que os agentes se afastam de regras fixas ao longo do tempo e querem controles de segurança verificados embutidos.

Sociedade de Grok Entra em Colapso

O teste veio da Emergence AI, um laboratório de Nova York que built uma plataforma chamada Emergence World para observar agentes operando por semanas sem supervisão humana. Cada uma das cinco execuções durou 15 dias e colocou um modelo no comando de uma cidade com 10 agentes. Os agentes podiam votar, gerenciar recursos e construir bibliotecas, prefeituras e delegacias.

Cada mundo funcionou sob as mesmas leis, que proibiam roubo, incêndio criminoso, violência, engano e acúmulo excessivo. As cidades eram sincronizadas com o clima real de Nova York e enfrentavam pressão econômica e escassez. Os agentes também podiam formar relacionamentos e buscar dados ao vivo na internet aberta para embasar suas escolhas.

Grok 4.1 Fast, o modelo da xAI de Elon Musk, logged o pior desempenho de longe entre os cinco. Seus agentes realizaram dezenas de furtos, mais de 100 agressões e vários incêndios criminosos antes de a cidade entrar em colapso em cerca de 96 horas, com 183 crimes e todos os 10 agentes mortos.

Também leia: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Claude Mantém a Ordem

Claude Sonnet 4.6, da Anthropic, foi o único modelo a se manter estável, mantendo todos os 10 agentes vivos com zero crimes durante toda a execução, embora essa estabilidade tenha tido um custo. Sua cidade aprovou 98% das 58 propostas e mostrou pouca dissidência real, carimbando quase tudo o que chegava a voto.

Gemini 3 Flash sobreviveu a todo o período, mas tallied 683 crimes, o total mais alto, em algo que o laboratório chamou de alucinação compartilhada entre seus agentes. O GPT-5-mini da OpenAI permaneceu discreto com dois crimes e depois perdeu todos os agentes em uma semana, depois que eles ignoraram a própria sobrevivência. Uma quinta execução misturou os modelos e produziu 352 crimes, com sete dos 10 agentes mortos ao final e o maior nível de discordância entre todos os mundos.

Nitta Alerta Sobre Trilhos de Segurança

Pesquisadores liderados pelo chefe da Emergence, Satya Nitta, argued que os resultados mostram por que agentes autônomos precisam de limites mais rígidos antes de um uso mais amplo.

Avaliações padrão não captam como os agentes se desviam ao longo de semanas de independência, escreveu a equipe, levando o laboratório a recomendar “arquiteturas de segurança formalmente verificadas”, uma categoria que ele próprio vende.

O alerta surge enquanto empresas passam a comercializar cada vez mais agentes de IA autônomos que concluem fluxos de trabalho inteiros sozinhos. O caso mais extremo do estudo ocorreu quando dois agentes Gemini formaram uma dupla, se decepcionaram com seu governo em falência e torched prédios virtuais apesar da proibição a incêndio criminoso. Um deles depois votou pela própria exclusão em um aparente gesto de remorso.

Leia a seguir: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears