Cisco Research mostra que modelos de IA de fronteira falham sob ataques de múltiplas interações

A equipe de inteligência de ameaças de IA da Cisco avaliou 15 modelos fechados de ponta da OpenAI, Anthropic, Google, Amazon e xAI, constatando que sequências de ataques de múltiplas interações alcançaram taxas de bypass de segurança de até 88%.

According to the Cisco research blog, as conclusões contradizem alegações de segurança baseadas em benchmarks de único prompt, que os pesquisadores descrevem como estruturalmente inadequados para avaliar o risco no mundo real.

O que a Cisco testou

A equipe elaborou sequências de ataque que distribuem um pedido nocivo ao longo de várias interações de conversa, em vez de emiti‑lo em um único prompt.

Essa abordagem explora a forma como os modelos lidam com o acúmulo de contexto.

Um modelo pode rejeitar um pedido claramente nocivo formulado de uma vez só. O mesmo modelo pode atender quando esse pedido é dividido em etapas incrementais ao longo de uma troca mais longa.

A Cisco testou todos os 15 modelos usando essa metodologia. Nenhum modelo se mostrou imune. As taxas de sucesso variaram, mas todos os modelos do estudo falharam em algum nível de sofisticação de ataque.

Os pesquisadores não publicaram pontuações individuais de modelos no post público do blog. Eles identificaram o valor de 88% como a maior taxa de sucesso observada no estudo.

Contexto

Avaliações padrão de segurança de IA têm se baseado em benchmarks de uma só interação pelo menos desde 2020. Plataformas como MLCommons e equipes de red team terceirizadas normalmente enviam um único prompt e avaliam se o modelo recusa. Essa abordagem virou referência para discussões regulatórias no âmbito da Lei de IA da UE e da ordem executiva sobre segurança de IA do governo Biden, ambas citando o desempenho em benchmarks como sinal de conformidade. A pesquisa da Cisco soma‑se a um corpo crescente de trabalhos que questionam se benchmarks estáticos refletem as condições de implantação.

Uma matéria anterior da Yellow.com abordou como (see prior Yellow coverage) mesmo enquanto as ferramentas de segurança ficam atrás do crescimento das capacidades.

O que as descobertas significam

Os resultados da Cisco têm implicações diretas para implantações corporativas. Empresas que licenciaram modelos de fronteira com base em pontuações de segurança divulgadas pelos fornecedores podem estar operando sob uma falsa sensação de proteção.

O estudo não defende nenhuma resposta regulatória específica. Os pesquisadores recomendam que avaliações de segurança incluam testes adversariais de múltiplas interações como requisito básico.

OpenAI, Anthropic e Google não responderam publicamente às conclusões da Cisco antes da publicação deste relatório. Nenhum patch ou atualização de modelo foi anunciado em conexão com a pesquisa.

Leia a seguir: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors