Une étude révèle que quatre grands laboratoires d’IA utilisent des métriques incompatibles pour les attaques par injection de prompts

Anthropic, OpenAI, Google et Meta ont chacun publié en 2026 des rapports sur les attaques par injection de prompts, mais une comparaison publiée par VentureBeat le 1er juin a montré qu’aucune de ces entreprises n’utilise les mêmes métriques.

Cette incohérence makes difficile aux équipes de sécurité des entreprises de comparer les risques entre modèles.

Ce que montraient les rapports

L’analyse de VentureBeat portait sur l’agent de navigation d’Anthropic, qui a été détourné dans 31 % des scénarios testés avant l’activation des garde-fous de sécurité. Les trois autres laboratoires ont communiqué sur des conditions de test différentes, d’autres types d’attaques et d’autres définitions du taux de réussite.

Anthropic a mesuré les taux de détournement de l’agent de navigation. Les autres laboratoires se sont concentrés sur l’injection indirecte dans des contextes d’appel d’outils ou dans des tâches de synthèse de documents. Aucun des quatre rapports n’a utilisé un cadre partagé ni une suite de tests adversariaux commune.

Les acheteurs en entreprise qui évaluent des agents d’IA pour une utilisation en production ne disposent d’aucune base de comparaison standardisée. Un modèle affichant un faible taux d’injection selon la définition d’un laboratoire peut en réalité être plus exposé selon la conception de tests d’un autre.

Contexte

L’injection de prompts est devenue une catégorie de menace reconnue à mesure que les agents d’IA sont passés de simples chatbots à des systèmes autonomes capables d’actions réelles comme l’envoi d’e‑mails, l’exécution de code ou l’appel d’API externes. Une instruction injectée peut rediriger un agent pour qu’il réalise des actions en dehors de son périmètre prévu.

En 2025, plusieurs déploiements en entreprise ont subi des incidents d’injection de prompts impliquant des agents de traitement de documents. Aucun n’a atteint l’ampleur d’une violation majeure, mais ces incidents ont suscité des appels à la mise en place d’exigences de divulgation standardisées. Aucun organisme de régulation n’a encore imposé de format commun de rapport pour les vulnérabilités d’agents d’IA.

Les quatre rapports publiés en 2026 représentent des efforts volontaires de transparence de la part des laboratoires. VentureBeat a souligné que l’absence de norme partagée rappelle les difficultés initiales de divulgation des vulnérabilités logicielles avant la mise en place du système CVE.

Que devraient faire les équipes de sécurité

Le rapport de VentureBeat recommande aux équipes de sécurité de considérer chaque rapport de laboratoire selon ses propres termes plutôt que de comparer uniquement les chiffres mis en avant. Les équipes devraient demander des détails sur la méthodologie de test avant de déployer des agents dans des flux de travail sensibles.

Aucune mesure réglementaire visant à standardiser les rapports de sécurité des AI agent n’a été annoncée en parallèle du rapport. Cette divergence devrait se poursuivre tant qu’un organisme sectoriel ou un régulateur n’aura pas imposé un cadre commun.