Claude Mythos resuelve hackeo AISI de 32 pasos en 6 de 10 intentos

Claude Mythos resuelve hackeo AISI de 32 pasos en 6 de 10 intentos

A new checkpoint of Anthropic's Claude Mythos Preview se ha convertido en el primer modelo de IA en resolver ambos simulacros de ciberataque del gobierno del Reino Unido, generando nuevas dudas sobre el hackeo autónomo.

AISI informa avance de Mythos

El AI Security Institute del Reino Unido reported el miércoles que el nuevo punto de control Mythos completó su circuito de ataque a red corporativa de 32 pasos, "The Last Ones", en 6 de 10 intentos. La versión anterior solo había logrado 3 de 10.

El modelo actualizado también superó "Cooling Tower", un circuito de sistema de control industrial que ningún modelo previo había aprobado, en 3 de 10 intentos.

El rival OpenAI GPT-5.5 fue probado en el mismo ejercicio. solved "The Last Ones" en 3 de 10 intentos, pero no completó "Cooling Tower".

La AISI ejecutó los circuitos con un presupuesto de cómputo de 100 millones de tokens por intento, y la agencia señaló que el rendimiento seguía escalando en ese techo, lo que sugiere que presupuestos más altos aumentarían aún más las tasas de éxito.

También lee: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok

El tiempo de duplicación sigue reduciéndose

La AISI rastrea el progreso cibernético mediante puntos de referencia de horizonte temporal, midiendo qué tan larga puede ser una tarea autónoma que un modelo completa con un 80% de fiabilidad. En noviembre de 2025, la agencia estimated un tiempo de duplicación de 8 meses. Para febrero de 2026, esa cifra se había comprimido a 4,7 meses, y tanto Mythos como GPT-5.5 han superado desde entonces la tendencia más rápida.

La agencia reconoció incertidumbre sobre si los resultados más recientes señalan una nueva aceleración o un salto puntual.

La organización de investigación sin fines de lucro METR, que evalúa la IA en tareas de software en lugar de circuitos cibernéticos, ha producido una cifra similar de aproximadamente 4,2 meses. La AISI dijo que la convergencia refuerza la idea de que la tendencia refleja verdaderas ganancias de capacidad y no una peculiaridad de una sola batería de evaluación.

El instituto recalcó que sus circuitos carecen de defensores activos, por lo que los resultados muestran lo que los modelos pueden hacer contra redes débilmente protegidas en lugar de sistemas empresariales endurecidos.

Por qué importan los saltos de capacidad

El nuevo punto de control de Mythos no llegó con una nueva versión de modelo. La AISI utilizó la misma versión que Anthropic desplegó el mes pasado con Project Glasswing, su programa de asociación en seguridad, después de recibir una compilación actualizada del mismo modelo.

"Los saltos notables de capacidad no siempre requieren nuevas versiones de modelo", escribió el instituto. Eso contradice la suposición de que los defensores pueden seguir el ritmo de los ciclos de lanzamiento.

Anthropic introduced Mythos Preview el 7 de abril, presentando el modelo como un punto de inflexión para la industria de la seguridad después de que identificara fallas de día cero en los principales sistemas operativos y navegadores en pruebas internas. La empresa dijo que had withheld broader release debido a esas capacidades, y la evaluación anterior de la AISI en abril señaló a Mythos como un claro salto respecto de sistemas frontera previos.

Read Next: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO

Descargo de responsabilidad y advertencia de riesgos: La información proporcionada en este artículo es solo para propósitos educativos e informativos y se basa en la opinión del autor. No constituye asesoramiento financiero, de inversión, legal o fiscal. Los activos de criptomonedas son altamente volátiles y están sujetos a alto riesgo, incluido el riesgo de perder toda o una cantidad sustancial de su inversión. Operar o mantener activos cripto puede no ser adecuado para todos los inversores. Las opiniones expresadas en este artículo son únicamente las del autor/autores y no representan la política oficial o posición de Yellow, sus fundadores o sus ejecutivos. Siempre realice su propia investigación exhaustiva (D.Y.O.R.) y consulte a un profesional financiero licenciado antes de tomar cualquier decisión de inversión.
Últimas noticias
Ver todas las noticias
Claude Mythos resuelve hackeo AISI de 32 pasos en 6 de 10 intentos | Yellow.com