Claude Mythos AI supera a sus rivales en auditorías de código, pero pierde por un precio 5 veces mayor

Anthropic's Mythos AI model lidera a los sistemas rivales en la detección de vulnerabilidades de software, pero nuevos benchmarks independientes exponen un criterio más débil y altos costes de operación.

Mythos Preview lidera en auditorías de código fuente

La firma de seguridad ofensiva XBOW confirmed la afirmación principal. La empresa reunió a un equipo de 10 expertos para evaluar el modelo en benchmarks, flujos de trabajo e integraciones.

XBOW afirmó que Mythos Preview «representa un avance significativo sobre todos los modelos existentes, independientemente del proveedor». Los evaluadores ejecutaron el modelo contra aplicaciones de código abierto congeladas con vulnerabilidades conocidas.

Mythos redujo los falsos negativos en un 42% frente a Opus 4.6, y la reducción alcanzó el 55% una vez que el modelo recibió acceso al código fuente, informó The Decoder reported. El modelo destacó en las pruebas combinadas en vivo más código fuente. Su desempeño fue menos fiable cuando solo se le proporcionó el código.

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

La cuestión del coste modera la ventaja de Anthropic

Anthropic ha indicado que Mythos Preview será aproximadamente 5 veces más caro que un modelo Opus, ya de por sí entre las opciones más costosas del mercado. Esa prima llevó a XBOW a probar si un rival más barato podría igualar a Mythos con más tiempo de ejecución.

La respuesta fue que sí. Con un presupuesto fijo de tokens para el descubrimiento de vulnerabilidades web, Mythos superó a Opus 4.6 pero perdió frente a OpenAI's GPT-5.5, que XBOW recorded con una tasa de fallos del 10%. XBOW señaló que el modelo «no es terriblemente ineficiente» si la precisión es el objetivo, pero que deja de ser el mejor de su clase cuando entra en juego la normalización por coste.

La firma ahora recomienda ejecutar una combinación de modelos en lugar de depender de uno solo.

Rendimiento de Mythos AI en contexto

Mythos mostró un criterio mixto: rechazó falsos positivos mejor que sus predecesores, pero a veces descartó positivos reales cuando las pruebas no cumplían sus criterios formales. La ingeniería inversa y el análisis de código nativo se situaron entre sus habilidades más destacadas, con el modelo capaz de priorizar hallazgos de sistemas competidores.

Anthropic first unveiled Mythos in early April, restringiendo el acceso a unas 50 empresas asociadas y presentando el lanzamiento como un cambio de nivel en la capacidad cibernética de la IA. Más tarde, el Instituto de Seguridad de IA del Reino Unido afirmó que tanto Mythos como GPT-5.5 habían «superado sustancialmente» su previsión acelerada. El organismo ahora estima que las capacidades cibernéticas se duplican cada 4,7 meses, frente a la cifra anterior de ocho meses establecida en noviembre de 2025.