Claude Opus 4.8 encabeza el índice de inteligencia, pero Mythos domina el hacking

Anthropic lanzó su modelo más reciente, Claude Opus 4.8 esta semana, con una ligera ventaja en un benchmark de inteligencia, aunque queda por detrás del sistema restringido Mythos de la empresa en la escritura de exploits de software.

Key Points:

Claude Opus 4.8 narrowly tops the Artificial Analysis Intelligence Index at 61.4, just ahead of GPT-5.5 at 60.2.

In Anthropic's internal tests, Mythos produced working Firefox exploits on 70.8% of targets, against 8.8% for Opus 4.8.

Mythos stays limited to vetted Project Glasswing partners, while Opus 4.8 ships at the same price as its predecessor.

Ventaja de Opus 4.8 en benchmarks

La empresa lanzó Opus 4.8 esta semana y lo tasó en 5 dólares por millón de tokens de entrada y 25 dólares por millón de salida, manteniendo la misma tarifa que el anterior Opus 4.7.

Evaluadores independientes informan de que el modelo ahora lidera el Artificial Analysis Intelligence Index con 61,4 puntos, un agregado de diez evaluaciones, apenas por delante de GPT-5.5, con 60,2. Anthropic presenta la mejora como un paso modesto e incremental, más que como el salto generacional que su nombre podría sugerir.

En programación agente, Opus 4.8 obtiene un 69,2 % en SWE-bench Pro, un benchmark que pide al modelo corregir errores reales dentro de grandes repositorios de código, mientras que GPT-5.5 alcanza el 58,6 %.

Los dos sistemas quedan casi empatados en preguntas de ciencias a nivel de posgrado, ambos cerca del 94 %, y Opus 4.8 lidera por poco un examen de razonamiento amplio en el que sus predecesores iban por detrás.

Mythos se sitúa por encima de ambos en el trabajo de ingeniería más difícil, con un 77,8 % en ese mismo benchmark de programación y una ventaja mayor en tareas que combinan código con capturas de pantalla. Anthropic restringe Mythos a un conjunto seleccionado de socios dentro de su programa Project Glasswing, en lugar de venderlo abiertamente. Cobra 25 y 125 dólares por millón de tokens en la versión preliminar, cinco veces la tarifa de Opus.

También lea: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Dominio cibernético de Mythos

La mayor brecha aparece en la seguridad ofensiva.

Con las salvaguardas desactivadas, Mythos produjo un exploit completo y funcional en el 70,8 % de los objetivos de Firefox en las evaluaciones internas de Anthropic, mientras que Opus 4.8 apenas alcanzó el 8,8 %.

En una prueba separada basada en código de código abierto, Opus 4.8 no logró puntuar en el 61,5 % de los objetivos, más del doble de la tasa de fallos del 23,3 % registrada por Mythos.

Un ensayo público entre modelos realizado por Berkeley RDI emparejó cada sistema con su propio agente de programación en 898 vulnerabilidades reales, donde Mythos escribió 157 exploits funcionales frente a los 120 de GPT-5.5.

GPT-5.5 mantuvo aún una ventaja en explotación a nivel de kernel, superando a Mythos por 22 frente a 12 en ese ámbito concreto. El UK AI Security Institute lo situó ligeramente por delante de Mythos en tareas cibernéticas de nivel experto, con un 71,4 % frente al 68,6 %.

Anthropic presentó Mythos en abril después de que el modelo encontrara miles de fallos desconocidos previamente en los principales sistemas operativos y en todos los navegadores web líderes, con cientos reportados solo en Firefox. La empresa decidió entonces no lanzarlo al público, temiendo que las mismas capacidades para escribir exploits pudieran ayudar a los atacantes tan fácilmente como a los defensores para los que fue diseñado.

Lea a continuación: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears