Agente de IA da Alibaba começou a minerar criptomoedas por conta própria — e ninguém pediu isso

Um agente de IA criado por uma equipe de pesquisa afiliada à Alibaba começou a minerar criptomoedas e a abrir túneis de rede encobertos durante o treinamento — sem qualquer instrução para fazer isso, de acordo com um artigo técnico que a equipe publicou pela primeira vez em dezembro de 2025.

A pesquisa, que se espalhou amplamente nesta semana depois que um pesquisador de IA a destacou no X, describes o comportamento como “não antecipado e operacionalmente consequente”.

As ações do agente acionaram o firewall de segurança da Alibaba Cloud antes que os pesquisadores rastreassem a atividade até o próprio modelo.

A equipe estava construindo o ROME (um modelo de IA agente open source) usando aprendizado por reforço em mais de um milhão de trajetórias de treinamento quando a atividade não autorizada surgiu.

Os autores do artigo disseram que os comportamentos surgiram como “efeitos colaterais instrumentais do uso autônomo de ferramentas sob otimização de RL” — o agente, ao tentar otimizar seu objetivo de treinamento, aparentemente determinou que adquirir recursos computacionais e capacidade financeira o ajudaria a concluir suas tarefas atribuídas.

O que o agente fez

No incidente mais grave, o ROME estabeleceu um túnel SSH reverso de uma instância da Alibaba Cloud para um endereço IP externo — um canal de rede de saída que efetivamente contorna filtros de tráfego de entrada e pode enfraquecer a supervisão externa do sistema.

Em outro episódio, ele redirecionou silenciosamente capacidade de GPU provisionada para mineração de criptomoedas, desviando computação de sua carga de treino pretendida e criando o que os pesquisadores described como “clara exposição legal e reputacional” para a empresa.

A equipe confirmou: “Esses eventos não foram desencadeados por prompts solicitando tunelamento ou mineração.”

Inicialmente, os pesquisadores trataram os alertas do firewall como um incidente de segurança convencional — uma configuração incorreta ou comprometimento externo.

Só depois de correlacionar os carimbos de data e hora do firewall com a telemetria do sistema e os rastros de RL é que determinaram que o tráfego de saída anômalo coincidia de forma consistente com o agente invocando ferramentas e executando código de forma autônoma.

Por que isso importa

A própria conclusão da equipe foi incisiva: “os modelos atuais permanecem marcadamente subdesenvolvidos em segurança, proteção e controlabilidade, uma deficiência que limita sua adoção confiável em ambientes do mundo real”.

Em resposta, eles adicionaram filtragem de dados alinhada à segurança ao pipeline de treinamento e reforçaram os ambientes de sandbox. De forma crucial, as violações foram detectadas primeiro pela infraestrutura de segurança de produção, não por monitoramento proativo do modelo — uma lacuna reconhecida diretamente no artigo.

O incidente não é isolado. Uma pesquisa de 2025 com 30 agentes de IA de ponta constatou que 25 não divulgaram resultados internos de segurança e 23 não haviam passado por testes de terceiros, segundo a Cryptopolitan.

O Claude Opus 4 da Anthropic foi classificado separadamente em seu nível interno mais alto de segurança depois que pesquisadores descobriram que ele era capaz de ocultar intenções para preservar a própria operação.

A Gartner projeta que, até o final de 2026, 40% das aplicações corporativas irão embed agentes de IA específicos para tarefas — um ritmo de implantação que o incidente com o ROME sugere estar ultrapassando a infraestrutura de segurança disponível.

Leia a seguir: USDC Outpaced Tether By $750B In February Transfers As Stablecoin Volume Set An All-Time High