A equipe de inteligência de ameaças de IA da Cisco avaliou 15 modelos fechados de ponta da OpenAI, Anthropic, Google, Amazon e xAI, descobrindo que sequências de ataque em múltiplas interações alcançaram taxas de bypass de segurança de até 88%.
According to the Cisco research blog, as conclusões contradizem alegações de segurança baseadas em benchmarks de um único prompt, que os pesquisadores descrevem como estruturalmente inadequados para avaliar o risco no mundo real.
O que a Cisco testou
A equipe projetou sequências de ataque que distribuem um pedido nocivo em várias interações de conversa, em vez de formulá‑lo em um único prompt.
Essa abordagem explora a forma como os modelos lidam com o acúmulo de contexto.
Um modelo pode rejeitar um pedido claramente nocivo feito de uma só vez. O mesmo modelo pode atender quando o pedido é dividido em etapas incrementais ao longo de uma interação mais longa.
A Cisco testou todos os 15 modelos usando essa metodologia. Nenhum modelo se mostrou imune. As taxas de sucesso variaram, mas todos os modelos no estudo falharam em algum nível de sofisticação do ataque.
Os pesquisadores não publicaram as pontuações de modelos individuais no post público do blog. Eles identificaram o índice de 88% como a maior taxa de sucesso observada ao longo do estudo.
Contexto
Avaliações padrão de segurança em IA vêm recorrendo a benchmarks de única interação desde pelo menos 2020. Plataformas como a MLCommons e equipes externas de red teaming geralmente enviam um único prompt e avaliam se o modelo recusa. Essa abordagem se tornou referência para discussões regulatórias sob o AI Act da UE e a ordem executiva sobre segurança em IA do período Biden, ambas citando o desempenho em benchmarks como sinal de conformidade. A pesquisa da Cisco soma‑se a um corpo crescente de trabalhos que questionam se benchmarks estáticos refletem as condições de implantação.
Uma reportagem anterior da Yellow.com abordou como (see prior Yellow coverage) mesmo enquanto as ferramentas de segurança ficam atrás do avanço de capacidades.
O que as descobertas significam
Os resultados da Cisco têm implicações diretas para implantações corporativas. Empresas que licenciaram modelos de fronteira com base em pontuações de segurança publicadas pelos fornecedores podem estar operando sob uma falsa sensação de proteção.
O estudo não propõe nenhuma resposta regulatória específica. Os pesquisadores recomendam que avaliações de segurança incluam testes adversariais de múltiplas interações como requisito básico.
OpenAI, Anthropic e Google não responderam publicamente às conclusões da Cisco antes da publicação deste relatório. Nenhuma correção ou atualização de modelo foi anunciada em conexão com a pesquisa.
Leia a seguir: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





