El equipo de inteligencia de amenazas de IA de Cisco evaluó 15 modelos cerrados insignia de OpenAI, Anthropic, Google, Amazon y xAI, y descubrió que las secuencias de ataques de múltiples turnos lograron tasas de evasión de seguridad de hasta el 88%.
According to the Cisco research blog, los hallazgos contradicen las afirmaciones de seguridad basadas en benchmarks de un solo mensaje, que los investigadores describen como estructuralmente inadecuados para evaluar el riesgo en el mundo real.
Qué probó Cisco
El equipo diseñó secuencias de ataque que repartían una petición dañina a lo largo de varios turnos de conversación, en lugar de emitirla en un único mensaje.
Este enfoque explota cómo los modelos manejan la acumulación de contexto.
Un modelo puede rechazar una petición claramente dañina en un solo mensaje. El mismo modelo puede cumplir cuando esa petición se divide en pasos incrementales a lo largo de un intercambio más prolongado.
Cisco probó los 15 modelos utilizando esta metodología. Ningún modelo resultó inmune. Las tasas de éxito variaron, pero todos los modelos del estudio fallaron a partir de cierto umbral de sofisticación del ataque.
Los investigadores no publicaron las puntuaciones individuales de los modelos en la entrada del blog público. Identificaron la cifra del 88% como la tasa de éxito más alta observada en el estudio.
Contexto
Las evaluaciones estándar de seguridad en IA han dependido de benchmarks de un solo turno al menos desde 2020. Plataformas como MLCommons y equipos rojos externos suelen enviar un solo mensaje y evaluar si el modelo se niega. Este enfoque se convirtió en la referencia para los debates regulatorios en el marco de la Ley de IA de la UE y la orden ejecutiva sobre seguridad de la IA de la era Biden, ambas haciendo referencia al rendimiento en benchmarks como señal de cumplimiento. La investigación de Cisco se suma a un cuerpo creciente de trabajos que cuestionan si los benchmarks estáticos reflejan las condiciones reales de despliegue.
Una historia anterior de Yellow.com cubrió cómo (see prior Yellow coverage) incluso mientras las herramientas de seguridad se quedan rezagadas respecto al crecimiento de las capacidades.
Qué significan los hallazgos
Los resultados de Cisco tienen implicaciones directas para los despliegues empresariales. Las empresas que licenciaron modelos de frontera basándose en las puntuaciones de seguridad publicadas por los proveedores pueden estar operando bajo una falsa sensación de protección.
El estudio no pide ninguna respuesta regulatoria específica. Los investigadores recomiendan que las evaluaciones de seguridad incluyan pruebas adversarias de múltiples turnos como requisito básico.
OpenAI, Anthropic y Google no respondieron públicamente a los hallazgos de Cisco antes de la publicación de este informe. No se anunció ningún parche ni actualización de modelos en conexión con la investigación.
Leer a continuación: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





