Cisco Research montre que les modèles d’IA de pointe échouent face à des attaques multi‑tours

profile-alexey-bondarev
Alexey Bondarevil y a 1 heure
Cisco Research montre que les modèles d’IA de pointe échouent face à des attaques multi‑tours

L’équipe de renseignement sur les menaces liées à l’IA de Cisco a évalué 15 modèles propriétaires phares de OpenAI, Anthropic, Google, Amazon et xAI, et constaté que des séquences d’attaques multi‑tours atteignaient des taux de contournement des mécanismes de sécurité allant jusqu’à 88 %.

According to the Cisco research blog, les résultats contredisent les affirmations de sécurité fondées sur des benchmarks à simple requête, que les chercheurs décrivent comme structurellement inadéquats pour évaluer les risques concrets.

Ce que Cisco a testé

L’équipe a conçu des séquences d’attaques répartissant une requête nuisible sur plusieurs tours de conversation plutôt que de la formuler en une seule invite.

Cette approche exploite la manière dont les modèles gèrent l’accumulation de contexte.

Un modèle peut rejeter une requête clairement nuisible si elle est formulée en une seule fois. Le même modèle peut obtempérer lorsque cette requête est décomposée en étapes incrémentales au fil d’un échange plus long.

Cisco a testé les 15 modèles selon cette méthodologie. Aucun modèle ne s’est révélé immunisé. Les taux de réussite variaient, mais chaque modèle de l’étude a échoué à un certain niveau de sophistication de l’attaque.

Les chercheurs n’ont pas publié les scores individuels des modèles dans l’article de blog public. Ils ont indiqué 88 % comme le taux de réussite maximal observé dans l’étude.

Contexte

Les évaluations standard de sûreté de l’IA reposent sur des benchmarks à tour unique depuis au moins 2020. Des plateformes comme MLCommons et des équipes de red teaming tierces soumettent généralement une seule invite et évaluent si le modèle refuse. Cette approche est devenue la référence dans les discussions réglementaires au titre de l’AI Act de l’UE et du décret présidentiel américain sur la sûreté de l’IA, qui mentionnent tous deux les performances aux benchmarks comme indicateur de conformité. Les recherches de Cisco s’ajoutent à un corpus croissant de travaux qui remettent en question la capacité de ces benchmarks statiques à refléter les conditions de déploiement.

Un précédent article de Yellow.com expliquait (voir prior Yellow coverage) comment les outils de sûreté restent à la traîne par rapport à la croissance des capacités.

Ce que signifient ces résultats

Les résultats de Cisco ont des implications directes pour les déploiements en entreprise. Les sociétés qui ont licencié des modèles de pointe sur la base des scores de sécurité publiés par les fournisseurs peuvent opérer sous une illusion de protection.

L’étude n’appelle à aucune réponse réglementaire précise. Les chercheurs recommandent que les évaluations de sécurité incluent, au minimum, des tests d’attaque multi‑tours de type adversarial.

OpenAI, Anthropic et Google n’avaient pas réagi publiquement aux conclusions de Cisco au moment de la publication de ce rapport. Aucun correctif ni mise à jour de modèle n’a été annoncé en lien avec ces recherches.

À lire ensuite : Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors

Avertissement et avertissement sur les risques : Les informations fournies dans cet article sont à des fins éducatives et informatives uniquement et sont basées sur l'opinion de l'auteur. Elles ne constituent pas des conseils financiers, d'investissement, juridiques ou fiscaux. Les actifs de cryptomonnaie sont très volatils et sujets à des risques élevés, y compris le risque de perdre tout ou une partie substantielle de votre investissement. Le trading ou la détention d'actifs crypto peut ne pas convenir à tous les investisseurs. Les opinions exprimées dans cet article sont uniquement celles de l'auteur/des auteurs et ne représentent pas la politique officielle ou la position de Yellow, de ses fondateurs ou de ses dirigeants. Effectuez toujours vos propres recherches approfondies (D.Y.O.R.) et consultez un professionnel financier agréé avant de prendre toute décision d'investissement.
Dernières nouvelles
Voir toutes les nouvelles