Estudo aponta que quatro grandes laboratórios de IA usam métricas incompatíveis para prompt injection

Anthropic, OpenAI, Google e Meta publicaram divulgações sobre prompt injection em 2026, mas uma comparação publicada pela VentureBeat em 1º de junho constatou que nenhuma das empresas mede as mesmas métricas.

A inconsistência makes mais difícil para as equipes de segurança corporativa comparar o risco entre modelos.

O que as divulgações mostraram

A análise da VentureBeat cobriu o agente de navegação da Anthropic, que foi sequestrado em 31% dos cenários testados antes de os mecanismos de segurança entrarem em ação. Os outros três laboratórios divulgaram diferentes condições de teste, diferentes tipos de ataque e diferentes definições de taxa de sucesso.

A Anthropic mediu taxas de sequestro de agente de navegação. Outros laboratórios focaram em injeção indireta em contextos de chamada de ferramentas ou em tarefas de sumarização de documentos. Nenhum dos quatro relatórios utilizou uma estrutura compartilhada ou uma suíte comum de testes adversariais.

Compradores corporativos que avaliam agentes de IA para uso em produção não têm uma base padronizada para comparação. Um modelo que apresenta baixa taxa de injeção segundo a definição de um laboratório pode enfrentar maior exposição sob o desenho de teste de outro laboratório.

Also Read: OpenAI Model Cracks An 80-Year Math Problem No Human Could Solve

Contexto

Prompt injection tornou-se uma categoria de ameaça reconhecida à medida que agentes de IA evoluíram de chatbots para sistemas autônomos capazes de tomar ações reais, como enviar e-mails, executar código e chamar APIs externas. Uma instrução injetada pode redirecionar um agente para executar ações fora de seu escopo pretendido.

Em 2025, várias implantações corporativas sofreram incidentes de prompt injection envolvendo agentes de processamento de documentos. Nenhum atingiu a escala de uma grande violação, mas os incidentes motivaram apelos por requisitos padronizados de divulgação. Nenhum órgão regulador ainda exigiu um formato comum de relatório para vulnerabilidades em agentes de IA.

As quatro divulgações publicadas em 2026 representam esforços voluntários de transparência por parte dos laboratórios. A VentureBeat observou que a falta de um padrão compartilhado reflete desafios iniciais na divulgação de vulnerabilidades de software antes do estabelecimento do sistema CVE.

Also Read: Anthropic Overtakes OpenAI As World's Most Valuable AI Startup At $965B

O que as equipes de segurança devem fazer

O relatório da VentureBeat recomendou que as equipes de segurança tratem a divulgação de cada laboratório em seus próprios termos, em vez de comparar apenas os números de destaque. As equipes devem solicitar detalhes sobre a metodologia de teste antes de implantar agentes em fluxos de trabalho sensíveis.

Nenhuma ação regulatória para padronizar divulgações de segurança de AI agent foi anunciada junto com o relatório. A divergência provavelmente continuará até que uma entidade do setor ou regulador exija uma estrutura comum.