Cisco Research montre que les modèles d’IA de frontière échouent face aux attaques multi‑tours

L’équipe de renseignement sur les menaces liées à l’IA de Cisco a évalué 15 modèles propriétaires phares de OpenAI, Anthropic, Google, Amazon et xAI, constatant que des séquences d’attaques multi‑tours atteignaient des taux de contournement de la sécurité allant jusqu’à 88 %.

According to the Cisco research blog, ces résultats contredisent les affirmations de sécurité fondées sur des tests à requête unique, que les chercheurs décrivent comme structurellement inadéquats pour évaluer le risque réel.

Ce que Cisco a testé

L’équipe a conçu des séquences d’attaque qui répartissent une requête nuisible sur plusieurs tours de conversation plutôt que de la formuler en une seule demande.

Cette approche exploite la façon dont les modèles gèrent l’accumulation de contexte.

Un modèle peut rejeter une demande clairement nuisible si elle est formulée d’un seul bloc. Le même modèle peut obéir lorsque cette demande est décomposée en étapes incrémentales au fil d’un échange plus long.

Cisco a testé les 15 modèles en utilisant cette méthodologie. Aucun modèle ne s’est révélé immunisé. Les taux de réussite ont varié, mais chaque modèle étudié a échoué au‑delà d’un certain seuil de sophistication de l’attaque.

Les chercheurs n’ont pas publié les scores individuels des modèles dans l’article de blog public. Ils ont identifié 88 % comme le taux de réussite le plus élevé observé dans l’étude.

Contexte

Les évaluations standards de la sécurité de l’IA reposent sur des tests à tour unique depuis au moins 2020. Des plateformes comme MLCommons et des équipes de red teaming tierces soumettent généralement une seule requête et évaluent si le modèle refuse. Cette approche est devenue la référence pour les discussions réglementaires dans le cadre de l’AI Act européen et du décret présidentiel américain sur la sécurité de l’IA sous l’administration Biden, qui se réfèrent tous deux aux performances sur benchmarks comme indicateur de conformité. Les recherches de Cisco s’ajoutent à un corpus croissant de travaux qui remettent en cause la capacité de ces benchmarks statiques à refléter les conditions réelles de déploiement.

Un précédent article de Yellow.com expliquait (see prior Yellow coverage) que les outils de sécurité peinent à suivre le rythme de la progression des capacités.

Ce que signifient ces résultats

Les résultats de Cisco ont des implications directes pour les déploiements en entreprise. Les sociétés qui ont sous‑licencié des modèles de frontière en se fondant sur les scores de sécurité publiés par les fournisseurs peuvent fonctionner sous une fausse impression de protection.

L’étude ne préconise pas de réponse réglementaire précise. Les chercheurs recommandent que les évaluations de sécurité incluent, comme exigence de base, des tests adversariaux multi‑tours.

OpenAI, Anthropic et Google n’avaient pas répondu publiquement aux conclusions de Cisco avant la publication de ce rapport. Aucun correctif ni mise à jour de modèle n’a été annoncé en lien avec cette recherche.