Un estudio halla que cuatro grandes laboratorios de IA usan métricas incompatibles para las inyecciones de prompts

Anthropic, OpenAI, Google y Meta publicaron cada uno sus informes sobre inyección de prompts en 2026, pero una comparación publicada por VentureBeat el 1 de junio concluyó que ninguna de las empresas mide las mismas métricas.

La falta de coherencia makes que sea difícil para los equipos de seguridad empresarial comparar el riesgo entre modelos.

Lo que mostraron los informes

El análisis de VentureBeat abarcó el agente de navegador de Anthropic, que fue secuestrado en el 31 % de los escenarios probados antes de que se activaran las protecciones de seguridad. Los otros tres laboratorios informaron condiciones de prueba diferentes, tipos de ataque distintos y definiciones variadas de tasa de éxito.

Anthropic midió las tasas de secuestro de agentes de navegador. Otros laboratorios se centraron en inyección indirecta en contextos de llamadas a herramientas o en tareas de resumen de documentos. Ninguno de los cuatro informes utilizó un marco compartido ni una batería común de pruebas adversariales.

Los compradores empresariales que evalúan agentes de IA para uso en producción no tienen una base estandarizada para la comparación. Un modelo que muestra una baja tasa de inyección según la definición de un laboratorio puede enfrentarse a una exposición mayor bajo el diseño de pruebas de otro laboratorio.

También lee: OpenAI Model Cracks An 80-Year Math Problem No Human Could Solve

Contexto

La inyección de prompts se convirtió en una categoría de amenaza reconocida cuando los agentes de IA pasaron de chatbots a sistemas autónomos capaces de realizar acciones reales, como enviar correos electrónicos, ejecutar código y llamar a APIs externas. Una instrucción inyectada puede redirigir a un agente para que realice acciones fuera de su ámbito previsto.

En 2025, varias implementaciones empresariales sufrieron incidentes de inyección de prompts que involucraban agentes de procesamiento de documentos. Ninguno alcanzó la escala de una brecha importante, pero los incidentes generaron llamados a requisitos estandarizados de divulgación. Ningún organismo regulador ha exigido todavía un formato común de reporte para vulnerabilidades de agentes de IA.

Las cuatro divulgaciones publicadas en 2026 representan esfuerzos voluntarios de transparencia por parte de los laboratorios. VentureBeat señaló que la ausencia de un estándar compartido refleja los desafíos iniciales en la divulgación de vulnerabilidades de software antes de que se estableciera el sistema CVE.

También lee: Anthropic Overtakes OpenAI As World's Most Valuable AI Startup At $965B

Qué deberían hacer los equipos de seguridad

El informe de VentureBeat recomendó que los equipos de seguridad traten cada informe de laboratorio según sus propios términos en lugar de comparar solo las cifras principales. Los equipos deberían solicitar detalles de la metodología de prueba antes de desplegar agentes en flujos de trabajo sensibles.

No se anunció ninguna acción regulatoria sobre la estandarización de los informes de seguridad de AI agent junto con el informe. Es probable que esta divergencia continúe hasta que un organismo del sector o un regulador imponga un marco común.

Lee a continuación: North Korea Drained $577M From Global Crypto Theft In 2026 So Far