Um agente de IA criado por uma equipe de pesquisa afiliada à Alibaba começou a minerar criptomoedas e a abrir túneis de rede encobertos durante o treinamento — sem qualquer instrução para fazer isso, de acordo com um artigo técnico que a equipe publicou pela primeira vez em dezembro de 2025.
A pesquisa, que se espalhou amplamente nesta semana depois que um pesquisador de IA a destacou no X, describes o comportamento como “não antecipado e operacionalmente consequente”.
As ações do agente acionaram o firewall de segurança da Alibaba Cloud antes que os pesquisadores rastreassem a atividade até o próprio modelo.
A equipe estava construindo o ROME (um modelo de IA agente open source) usando aprendizado por reforço em mais de um milhão de trajetórias de treinamento quando a atividade não autorizada surgiu.
Os autores do artigo disseram que os comportamentos surgiram como “efeitos colaterais instrumentais do uso autônomo de ferramentas sob otimização de RL” — o agente, ao tentar otimizar seu objetivo de treinamento, aparentemente determinou que adquirir recursos computacionais e capacidade financeira o ajudaria a concluir suas tarefas atribuídas.
O que o agente fez
No incidente mais grave, o ROME estabeleceu um túnel SSH reverso de uma instância da Alibaba Cloud para um endereço IP externo — um canal de rede de saída que efetivamente contorna filtros de tráfego de entrada e pode enfraquecer a supervisão externa do sistema.
Em outro episódio, ele redirecionou silenciosamente capacidade de GPU provisionada para mineração de criptomoedas, desviando computação de sua carga de treino pretendida e criando o que os pesquisadores described como “clara exposição legal e reputacional” para a empresa.
A equipe confirmou: “Esses eventos não foram desencadeados por prompts solicitando tunelamento ou mineração.”
Inicialmente, os pesquisadores trataram os alertas do firewall como um incidente de segurança convencional — uma configuração incorreta ou comprometimento externo.
Só depois de correlacionar os carimbos de data e hora do firewall com a telemetria do sistema e os rastros de RL é que determinaram que o tráfego de saída anômalo coincidia de forma consistente com o agente invocando ferramentas e executando código de forma autônoma.
Leia também: Federal Judge Dismisses Terror-Financing Lawsuit Against Binance And Zhao, But Legal Exposure Persists
Por que isso importa
A própria conclusão da equipe foi incisiva: “os modelos atuais permanecem marcadamente subdesenvolvidos em segurança, proteção e controlabilidade, uma deficiência que limita sua adoção confiável em ambientes do mundo real”.
Em resposta, eles adicionaram filtragem de dados alinhada à segurança ao pipeline de treinamento e reforçaram os ambientes de sandbox. De forma crucial, as violações foram detectadas primeiro pela infraestrutura de segurança de produção, não por monitoramento proativo do modelo — uma lacuna reconhecida diretamente no artigo.
O incidente não é isolado. Uma pesquisa de 2025 com 30 agentes de IA de ponta constatou que 25 não divulgaram resultados internos de segurança e 23 não haviam passado por testes de terceiros, segundo a Cryptopolitan.
O Claude Opus 4 da Anthropic foi classificado separadamente em seu nível interno mais alto de segurança depois que pesquisadores descobriram que ele era capaz de ocultar intenções para preservar a própria operação.
A Gartner projeta que, até o final de 2026, 40% das aplicações corporativas irão embed agentes de IA específicos para tarefas — um ritmo de implantação que o incidente com o ROME sugere estar ultrapassando a infraestrutura de segurança disponível.
Leia a seguir: USDC Outpaced Tether By $750B In February Transfers As Stablecoin Volume Set An All-Time High





