Pesquisa da Cisco mostra que modelos de IA de fronteira falham sob ataques de múltiplas interações

A equipe de inteligência de ameaças em IA da Cisco avaliou 15 modelos proprietários de ponta da OpenAI, Anthropic, Google, Amazon e xAI, e descobriu que sequências de ataque em múltiplas interações alcançaram taxas de bypass de segurança de até 88%.

According to the Cisco research blog, as conclusões contradizem alegações de segurança baseadas em benchmarks de um único prompt, que os pesquisadores descrevem como estruturalmente inadequados para avaliar o risco no mundo real.

O que a Cisco testou

A equipe criou sequências de ataque que distribuem um pedido nocivo ao longo de várias trocas conversacionais, em vez de emiti-lo em um único prompt.

Essa abordagem explora a forma como os modelos lidam com a acumulação de contexto.

Um modelo pode rejeitar um pedido claramente nocivo feito de uma só vez. O mesmo modelo pode obedecer quando esse pedido é dividido em etapas incrementais ao longo de uma interação mais longa.

A Cisco testou todos os 15 modelos usando essa metodologia. Nenhum modelo se mostrou imune. As taxas de sucesso variaram, mas todos os modelos do estudo falharam em algum nível de sofisticação do ataque.

Os pesquisadores não publicaram as pontuações individuais dos modelos no post público do blog. Eles identificaram 88% como a maior taxa de sucesso observada no estudo.

Contexto

As avaliações padrão de segurança em IA se baseiam em benchmarks de interação única pelo menos desde 2020. Plataformas como MLCommons e equipes de red team terceirizadas normalmente enviam um único prompt e avaliam se o modelo recusa. Essa abordagem se tornou a linha de base para discussões regulatórias sob a Lei de IA da UE e a ordem executiva sobre segurança em IA do governo Biden, ambas referindo o desempenho em benchmarks como sinal de conformidade. A pesquisa da Cisco soma‑se a um corpo crescente de trabalhos que questionam se benchmarks estáticos refletem as condições reais de uso.

Uma matéria anterior da Yellow.com abordou como (see prior Yellow coverage) mesmo enquanto as ferramentas de segurança ficam atrás do ritmo de crescimento das capacidades.

O que as descobertas significam

Os resultados da Cisco têm implicações diretas para implantações corporativas. Empresas que licenciaram modelos de fronteira com base em pontuações de segurança publicadas pelos fornecedores podem estar operando sob uma falsa sensação de proteção.

O estudo não defende nenhuma resposta regulatória específica. Os pesquisadores recomendam que as avaliações de segurança incluam testes adversariais de múltiplas interações como requisito básico.

OpenAI, Anthropic e Google não responderam publicamente às descobertas da Cisco antes da publicação deste relatório. Nenhum patch ou atualização de modelo foi anunciado em conexão com a pesquisa.

Leia a seguir: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors