L’équipe de renseignement sur les menaces liées à l’IA de Cisco a évalué 15 modèles propriétaires phares de OpenAI, Anthropic, Google, Amazon et xAI, et constaté que des séquences d’attaques multi‑tours atteignaient des taux de contournement des mécanismes de sécurité allant jusqu’à 88 %.
According to the Cisco research blog, les résultats contredisent les affirmations de sécurité fondées sur des benchmarks à simple requête, que les chercheurs décrivent comme structurellement inadéquats pour évaluer les risques concrets.
Ce que Cisco a testé
L’équipe a conçu des séquences d’attaques répartissant une requête nuisible sur plusieurs tours de conversation plutôt que de la formuler en une seule invite.
Cette approche exploite la manière dont les modèles gèrent l’accumulation de contexte.
Un modèle peut rejeter une requête clairement nuisible si elle est formulée en une seule fois. Le même modèle peut obtempérer lorsque cette requête est décomposée en étapes incrémentales au fil d’un échange plus long.
Cisco a testé les 15 modèles selon cette méthodologie. Aucun modèle ne s’est révélé immunisé. Les taux de réussite variaient, mais chaque modèle de l’étude a échoué à un certain niveau de sophistication de l’attaque.
Les chercheurs n’ont pas publié les scores individuels des modèles dans l’article de blog public. Ils ont indiqué 88 % comme le taux de réussite maximal observé dans l’étude.
Contexte
Les évaluations standard de sûreté de l’IA reposent sur des benchmarks à tour unique depuis au moins 2020. Des plateformes comme MLCommons et des équipes de red teaming tierces soumettent généralement une seule invite et évaluent si le modèle refuse. Cette approche est devenue la référence dans les discussions réglementaires au titre de l’AI Act de l’UE et du décret présidentiel américain sur la sûreté de l’IA, qui mentionnent tous deux les performances aux benchmarks comme indicateur de conformité. Les recherches de Cisco s’ajoutent à un corpus croissant de travaux qui remettent en question la capacité de ces benchmarks statiques à refléter les conditions de déploiement.
Un précédent article de Yellow.com expliquait (voir prior Yellow coverage) comment les outils de sûreté restent à la traîne par rapport à la croissance des capacités.
Ce que signifient ces résultats
Les résultats de Cisco ont des implications directes pour les déploiements en entreprise. Les sociétés qui ont licencié des modèles de pointe sur la base des scores de sécurité publiés par les fournisseurs peuvent opérer sous une illusion de protection.
L’étude n’appelle à aucune réponse réglementaire précise. Les chercheurs recommandent que les évaluations de sécurité incluent, au minimum, des tests d’attaque multi‑tours de type adversarial.
OpenAI, Anthropic et Google n’avaient pas réagi publiquement aux conclusions de Cisco au moment de la publication de ce rapport. Aucun correctif ni mise à jour de modèle n’a été annoncé en lien avec ces recherches.
À lire ensuite : Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





