Claude Opus 4.8 encabeza el índice de inteligencia mientras Mythos domina el hacking

Claude Opus 4.8 encabeza el índice de inteligencia mientras Mythos domina el hacking

Anthropic lanzó su modelo más reciente, Claude Opus 4.8 esta semana con una ligera ventaja en un benchmark de inteligencia, aunque queda por detrás del sistema restringido Mythos de la empresa en la escritura de exploits de software.

Key Points:

  • Claude Opus 4.8 narrowly tops the Artificial Analysis Intelligence Index at 61.4, just ahead of GPT-5.5 at 60.2.
  • In Anthropic's internal tests, Mythos produced working Firefox exploits on 70.8% of targets, against 8.8% for Opus 4.8.
  • Mythos stays limited to vetted Project Glasswing partners, while Opus 4.8 ships at the same price as its predecessor.

Ventaja de Opus 4.8 en benchmarks

La empresa lanzó Opus 4.8 esta semana y lo fijó de precio en 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida, manteniendo la tarifa al mismo nivel que el anterior Opus 4.7.

Evaluadores independientes informan de que el modelo ahora lidera el Artificial Analysis Intelligence Index con 61,4, un agregado de diez evaluaciones, ligeramente por delante de GPT-5.5, con 60,2. Anthropic presenta la mejora como un paso modesto e incremental, más que un salto generacional como podría sugerir su nombre.

En programación agentiva, Opus 4.8 obtiene un 69,2 % en SWE-bench Pro, un benchmark que pide al modelo corregir errores reales en grandes repositorios de código, mientras que GPT-5.5 alcanza el 58,6 %.

Los dos sistemas quedan casi empatados en preguntas de ciencia a nivel de posgrado, ambos cerca del 94 %, y Opus 4.8 lidera por poco un amplio examen de razonamiento en el que sus predecesores iban por detrás.

Mythos se sitúa por encima de ambos en los trabajos de ingeniería más difíciles, con un 77,8 % en ese mismo benchmark de programación y una ventaja mayor en tareas que combinan código con capturas de pantalla. Anthropic restringe Mythos a un conjunto seleccionado de socios dentro de su programa Project Glasswing, en lugar de venderlo abiertamente. Cobra 25 y 125 dólares por millón de tokens en la fase de prueba, cinco veces la tarifa de Opus.

También lee: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Dominio cibernético de Mythos

La brecha más amplia aparece en la seguridad ofensiva.

Con las salvaguardas desactivadas, Mythos produced un exploit plenamente funcional en el 70,8 % de los objetivos de Firefox en las propias evaluaciones de Anthropic, mientras que Opus 4.8 solo alcanzó el 8,8 %.

En una prueba aparte basada en código de código abierto, Opus 4.8 no logró puntuar en el 61,5 % de los objetivos, más del doble de la tasa de fallos del 23,3 % registrada por Mythos.

Una prueba pública entre modelos organizada por Berkeley RDI emparejó cada sistema con su propio agente de programación en 898 vulnerabilidades reales, donde Mythos escribió 157 exploits funcionales frente a los 120 de GPT-5.5.

GPT-5.5 aún mantenía una ventaja en explotación a nivel de kernel, liderando a Mythos 22 frente a 12 en ese segmento concreto. El UK AI Security Institute lo situó ligeramente por delante de Mythos en tareas cibernéticas de nivel experto, con un 71,4 % frente al 68,6 %.

Anthropic presentó Mythos en abril después de que el modelo encontrara miles de fallos previamente desconocidos en los principales sistemas operativos y en todos los navegadores web líderes, con cientos reportados solo en Firefox. La empresa decidió no lanzarlo al público, preocupada de que las mismas capacidades de escritura de exploits pudieran ayudar a los atacantes tanto como a los defensores para los que fue diseñado.

Lee a continuación: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

Descargo de responsabilidad y advertencia de riesgos: La información proporcionada en este artículo es solo para propósitos educativos e informativos y se basa en la opinión del autor. No constituye asesoramiento financiero, de inversión, legal o fiscal. Los activos de criptomonedas son altamente volátiles y están sujetos a alto riesgo, incluido el riesgo de perder toda o una cantidad sustancial de su inversión. Operar o mantener activos cripto puede no ser adecuado para todos los inversores. Las opiniones expresadas en este artículo son únicamente las del autor/autores y no representan la política oficial o posición de Yellow, sus fundadores o sus ejecutivos. Siempre realice su propia investigación exhaustiva (D.Y.O.R.) y consulte a un profesional financiero licenciado antes de tomar cualquier decisión de inversión.
Claude Opus 4.8 encabeza el índice de inteligencia mientras Mythos domina el hacking | Yellow.com