Claude Mythos AI supera a rivales en auditorías de código, pero pierde por un precio 5 veces mayor

Claude Mythos AI supera a rivales en auditorías de código, pero pierde por un precio 5 veces mayor

Anthropic's Mythos AI model supera a los sistemas rivales en la detección de vulnerabilidades de software, pero nuevos benchmarks independientes exponen un criterio más débil y altos costos de operación.

Mythos Preview lidera las auditorías de código fuente

La firma de seguridad ofensiva XBOW confirmó la afirmación principal. La empresa reunió a un equipo de 10 expertos para evaluar el modelo en benchmarks, flujos de trabajo e integraciones.

XBOW señaló que Mythos Preview «representa un avance significativo sobre todos los modelos existentes, independientemente del proveedor». Los evaluadores ejecutaron el modelo contra aplicaciones de código abierto congeladas con vulnerabilidades conocidas.

Mythos redujo los falsos negativos en un 42% frente a Opus 4.6, y la reducción alcanzó el 55% una vez que el modelo recibió acceso al código fuente, informó The Decoder reported. El modelo destacó en pruebas en vivo más código fuente. Su rendimiento fue menos fiable cuando solo se le proporcionó el código fuente.

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

La cuestión del costo modera la ventaja de Anthropic

Anthropic ha indicado que Mythos Preview será aproximadamente 5 veces más caro que un modelo Opus, ya de por sí entre las opciones más costosas del mercado. Esta prima llevó a XBOW a probar si un rival más barato podría igualar a Mythos con más tiempo de ejecución.

La respuesta fue sí. Con un presupuesto fijo de tokens para el descubrimiento de vulnerabilidades web, Mythos superó a Opus 4.6 pero perdió frente a OpenAI's GPT-5.5, que XBOW recorded con una tasa de error del 10%. XBOW señaló que el modelo «no es terriblemente ineficiente» si la precisión es el objetivo, pero deja de ser el mejor de su clase cuando se normalizan los costos.

La firma ahora recomienda utilizar una combinación de modelos en lugar de depender de uno solo.

Rendimiento de Mythos AI en contexto

Mythos mostró un criterio mixto: rechazó falsos positivos mejor que sus predecesores, pero a veces descartó verdaderos cuando las pruebas no cumplían sus criterios formales. La ingeniería inversa y el análisis de código nativo figuraron entre sus habilidades más destacadas, con capacidad para priorizar hallazgos procedentes de sistemas competidores.

Anthropic first unveiled Mythos in early April, restringiendo el acceso a aproximadamente 50 socios y presentando el lanzamiento como un cambio de nivel en la capacidad cibernética de la IA. Posteriormente, el U.K. AI Security Institute afirmó que tanto Mythos como GPT-5.5 habían «superado sustancialmente» su previsión acelerada. La agencia ahora estima que las capacidades cibernéticas se duplican cada 4,7 meses, frente a una cifra anterior de ocho meses fijada en noviembre de 2025.

Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%

Descargo de responsabilidad y advertencia de riesgos: La información proporcionada en este artículo es solo para propósitos educativos e informativos y se basa en la opinión del autor. No constituye asesoramiento financiero, de inversión, legal o fiscal. Los activos de criptomonedas son altamente volátiles y están sujetos a alto riesgo, incluido el riesgo de perder toda o una cantidad sustancial de su inversión. Operar o mantener activos cripto puede no ser adecuado para todos los inversores. Las opiniones expresadas en este artículo son únicamente las del autor/autores y no representan la política oficial o posición de Yellow, sus fundadores o sus ejecutivos. Siempre realice su propia investigación exhaustiva (D.Y.O.R.) y consulte a un profesional financiero licenciado antes de tomar cualquier decisión de inversión.
Últimas noticias
Ver todas las noticias