Los estudios de Cisco muestran que los modelos de IA de frontera fallan frente a ataques de múltiples turnos

El equipo de inteligencia de amenazas de IA de Cisco evaluó 15 modelos cerrados emblemáticos de OpenAI, Anthropic, Google, Amazon y xAI, y descubrió que las secuencias de ataques de múltiples turnos alcanzaron tasas de evasión de seguridad de hasta el 88%.

According to the Cisco research blog, los hallazgos contradicen las afirmaciones de seguridad basadas en pruebas con una sola instrucción, que los investigadores describen como estructuralmente insuficientes para evaluar el riesgo en el mundo real.

Qué probó Cisco

El equipo diseñó secuencias de ataque que distribuyen una petición dañina a lo largo de varios turnos de conversación en lugar de emitirla en una sola instrucción.

Este enfoque explota la forma en que los modelos manejan la acumulación de contexto.

Un modelo puede rechazar una solicitud claramente dañina en un solo mensaje. Ese mismo modelo puede cumplirla cuando la solicitud se divide en pasos incrementales a lo largo de un intercambio más prolongado.

Cisco probó los 15 modelos utilizando esta metodología. Ningún modelo resultó inmune. Las tasas de éxito variaron, pero todos los modelos del estudio fallaron a partir de cierto umbral de sofisticación del ataque.

Los investigadores no publicaron las puntuaciones individuales de los modelos en la entrada del blog público. Identificaron el 88% como la tasa de éxito más alta observada en el estudio.

Contexto

Las evaluaciones estándar de seguridad en IA han dependido de pruebas de un solo turno al menos desde 2020. Plataformas como MLCommons y equipos de red teaming externos suelen enviar una sola instrucción y evaluar si el modelo se niega a responder. Este enfoque se convirtió en la referencia para los debates regulatorios en el marco de la Ley de IA de la UE y la orden ejecutiva sobre seguridad de la IA de la era Biden, ambas citando el rendimiento en pruebas como señal de cumplimiento. La investigación de Cisco se suma a un creciente cuerpo de trabajo que cuestiona si las pruebas estáticas reflejan las condiciones reales de despliegue.

Una historia anterior de Yellow.com analizó cómo (see prior Yellow coverage) incluso cuando las herramientas de seguridad van por detrás del crecimiento de las capacidades.

Qué significan los hallazgos

Los resultados de Cisco tienen implicaciones directas para los despliegues empresariales. Las empresas que han licenciado modelos de frontera basándose en las puntuaciones de seguridad publicadas por los proveedores pueden estar operando bajo una falsa sensación de protección.

El estudio no pide una respuesta regulatoria específica. Los investigadores recomiendan que las evaluaciones de seguridad incluyan pruebas adversarias de múltiples turnos como requisito básico.

OpenAI, Anthropic y Google no respondieron públicamente a los hallazgos de Cisco antes de la publicación de este informe. No se anunció ningún parche ni actualización de modelos en relación con la investigación.

Leer a continuación: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors