Estudo mostra que quatro grandes laboratórios de IA usam métricas incompatíveis para prompt injection

Anthropic, OpenAI, Google e Meta publicaram cada uma suas divulgações sobre prompt injection em 2026, mas uma comparação publicada pela VentureBeat em 1º de junho constatou que nenhuma das empresas mede as mesmas métricas.

A inconsistência makes com que equipes de segurança corporativa tenham dificuldade para comparar o risco entre modelos.

O que as divulgações mostraram

A análise da VentureBeat cobriu o agente de navegação da Anthropic, que foi sequestrado em 31% dos cenários testados antes de as proteções de segurança entrarem em ação. Os outros três laboratórios divulgaram diferentes condições de teste, tipos de ataque distintos e definições diferentes de taxa de sucesso.

A Anthropic mediu as taxas de sequestro do agente de navegação. Outros laboratórios focaram em injeção indireta em contextos de uso de ferramentas ou em tarefas de sumarização de documentos. Nenhum dos quatro relatórios utilizou uma estrutura compartilhada ou um conjunto comum de testes adversariais.

Compradores corporativos que avaliam agentes de IA para uso em produção não têm uma base padronizada para comparação. Um modelo que apresenta baixa taxa de injeção segundo a definição de um laboratório pode enfrentar exposição maior sob o desenho de testes de outro laboratório.

Also Read: OpenAI Model Cracks An 80-Year Math Problem No Human Could Solve

Contexto

Prompt injection passou a ser reconhecida como uma categoria de ameaça à medida que agentes de IA evoluíram de chatbots para sistemas autônomos capazes de executar ações reais, como enviar e‑mails, executar código e chamar APIs externas. Uma instrução injetada pode redirecionar um agente a realizar ações fora do seu escopo previsto.

Em 2025, várias implantações corporativas sofreram incidentes de prompt injection envolvendo agentes de processamento de documentos. Nenhum alcançou a escala de uma grande violação, mas os incidentes motivaram apelos por requisitos padronizados de divulgação. Nenhum órgão regulador ainda determinou um formato comum de relatório para vulnerabilidades de agentes de IA.

As quatro divulgações publicadas em 2026 representam esforços voluntários de transparência por parte dos laboratórios. A VentureBeat observou que a falta de um padrão compartilhado espelha os desafios iniciais na divulgação de vulnerabilidades de software antes do estabelecimento do sistema CVE.

Also Read: Anthropic Overtakes OpenAI As World's Most Valuable AI Startup At $965B

O que as equipes de segurança devem fazer

O relatório da VentureBeat recomendou que as equipes de segurança tratem cada divulgação de laboratório em seus próprios termos, em vez de comparar apenas os números de destaque. As equipes devem solicitar detalhes da metodologia de teste antes de implantar agentes em fluxos de trabalho sensíveis.

Nenhuma ação regulatória sobre a padronização das divulgações de segurança de AI agent foi anunciada junto com o relatório. A divergência provavelmente continuará até que um órgão do setor ou regulador imponha uma estrutura comum.