Cisco Research mostra que modelos de IA de fronteira falham sob ataques em múltiplas interações

Cisco Research mostra que modelos de IA de fronteira falham sob ataques em múltiplas interações

A equipe de inteligência de ameaças de IA da Cisco avaliou 15 modelos proprietários de ponta da OpenAI, Anthropic, Google, Amazon e xAI, constatando que sequências de ataque em múltiplas interações alcançaram taxas de bypass de segurança de até 88%.

According to the Cisco research blog, as descobertas contradizem declarações de segurança baseadas em benchmarks de único prompt, que os pesquisadores descrevem como estruturalmente inadequados para avaliar o risco no mundo real.

O que a Cisco testou

A equipe desenhou sequências de ataque que distribuem um pedido nocivo ao longo de várias interações de conversa, em vez de em um único prompt.

Essa abordagem explora a forma como os modelos lidam com a acumulação de contexto.

Um modelo pode rejeitar um pedido claramente nocivo feito de uma só vez. O mesmo modelo pode atender quando esse pedido é dividido em etapas incrementais ao longo de uma conversa mais longa.

A Cisco testou todos os 15 modelos usando essa metodologia. Nenhum modelo se mostrou imune. As taxas de sucesso variaram, mas todo modelo no estudo falhou em algum nível de sofisticação do ataque.

Os pesquisadores não publicaram as pontuações individuais de cada modelo no post público do blog. Eles identificaram 88% como a maior taxa de sucesso observada no estudo.

Contexto

Avaliações padrão de segurança em IA vêm se baseando em benchmarks de uma única interação desde pelo menos 2020. Plataformas como MLCommons e equipes de red teaming terceirizadas normalmente enviam um único prompt e avaliam se o modelo recusa. Essa abordagem se tornou a linha de base nas discussões regulatórias sob o AI Act da UE e a ordem executiva sobre segurança de IA da era Biden, ambas citando o desempenho em benchmarks como um sinal de conformidade. A pesquisa da Cisco soma-se a um corpo crescente de trabalhos que questionam se benchmarks estáticos refletem as condições reais de uso.

Uma matéria anterior da Yellow.com mostrou (see prior Yellow coverage) como as ferramentas de segurança continuam atrasadas em relação ao crescimento das capacidades.

O que as descobertas significam

Os resultados da Cisco têm implicações diretas para implementações corporativas. Empresas que licenciaram modelos de fronteira com base em pontuações de segurança divulgadas pelos fornecedores podem estar operando sob uma falsa sensação de proteção.

O estudo não pede nenhuma resposta regulatória específica. Os pesquisadores recomendam que avaliações de segurança incluam testes adversariais em múltiplas interações como requisito básico.

OpenAI, Anthropic e Google não responderam publicamente às descobertas da Cisco antes da publicação deste relatório. Nenhum patch ou atualização de modelo foi anunciada em conexão com a pesquisa.

Leia a seguir: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors

Isenção de responsabilidade e aviso de risco: As informações fornecidas neste artigo são apenas para fins educacionais e informativos e são baseadas na opinião do autor. Elas não constituem aconselhamento financeiro, de investimento, jurídico ou tributário. Ativos de criptomoedas são altamente voláteis e sujeitos a alto risco, incluindo o risco de perder todo ou uma quantia substancial do seu investimento. Negociar ou manter ativos cripto pode não ser adequado para todos os investidores. As opiniões expressas neste artigo são exclusivamente do(s) autor(es) e não representam a política oficial ou posição da Yellow, seus fundadores ou seus executivos. Sempre conduza sua própria pesquisa minuciosa (D.Y.O.R.) e consulte um profissional financeiro licenciado antes de tomar qualquer decisão de investimento.
Cisco Research mostra que modelos de IA de fronteira falham sob ataques em múltiplas interações | Yellow.com