Claude Mythos AI creó exploits funcionales en 50 repos de Cloudflare y luego se negó a hacer una demo

Cloudflare confirmó el lunes que el modelo Mythos Preview de Anthropic, aún sin lanzar, encadenó errores en exploits funcionales en más de 50 de sus repositorios.

Hallazgos del proyecto Glasswing de Cloudflare

La revelación llegó en una entrada de blog del director de seguridad de Cloudflare, Grant Bourzikas, quien explicó que su equipo apuntó Mythos Preview a código en producción que abarcaba el runtime, la ruta de datos en el edge y la pila de protocolos. Cloudflare se unió a Project Glasswing, el programa solo por invitación de Anthropic para socios de seguridad defensiva. Bourzikas calificó el modelo como «un verdadero paso adelante», destacando dos capacidades que los competidores no tenían.

Mythos encadenó varios pequeños primitivos de ataque en pruebas de concepto funcionales. El modelo también compiló y ejecutó código de exploit en un entorno aislado, y luego revisó su hipótesis cuando una ejecución fallaba.

La publicación también señaló negativas inconsistentes del modelo de prueba.

En un caso, Mythos se negó a escribir un exploit de demostración tras confirmar varios errores de memoria en una base de código, y luego accedió cuando se le planteó la misma tarea de forma diferente en una sesión separada.

También lee: Crypto Funds Bleed $1.07B As Iran Tensions End Six-Week Inflow Run

Un arnés multiagente supera a los escáneres en solitario

Cloudflare afirmó que apuntar un único agente genérico de codificación a un repositorio no funcionó para la investigación de vulnerabilidades. En su lugar, Bourzikas construyó un arnés multietapa que ejecuta aproximadamente 50 agentes en paralelo en tareas específicas. La canalización realiza reconocimiento, búsqueda, validación adversarial, desduplicación y trazado de alcanzabilidad.

Un agente independiente intenta refutar cada hallazgo antes de que entre en la cola de triaje, reduciendo los falsos positivos que plagan el código inseguro en memoria escrito en C y C++. Anthropic se ha comprometido a aportar 100 millones de dólares en créditos de modelo y 4 millones de dólares en donaciones a grupos de seguridad de código abierto bajo Project Glasswing.

Mythos Preview no se lanzará públicamente.

Los smart contracts cripto se enfrentan a una ola de exploits con IA

Los hallazgos de Cloudflare llegan mientras aumentan las pérdidas on-chain. El puente Verus-Ethereum perdió 11 millones de dólares el lunes en un ataque entre cadenas, con los fondos convertidos en 5.402 Ether (ETH).

Investigadores de Anthropic ya habían mostrado que agentes de IA podían explotar de forma autónoma contratos en vivo con beneficio. En una prueba, los modelos analizaron 2.849 contratos desplegados y produjeron exploits por valor de 3.694 dólares utilizando 3.476 dólares en cómputo.

CertiK advirtió el 15 de mayo que los smart contracts heredados se encuentran ahora en el centro de una ola de caza impulsada por IA. Los protocolos DeFi perdieron más de 605 millones de dólares en unos 20 días de abril, incluyendo el drenaje de $293 millones de KelpDAO el 19 de abril. El fraude de ingeniería social supuso otros 306 millones de dólares en el primer trimestre.

Lee también: Iran Settles Hormuz Shipping Cover In Bitcoin, Eyes $10B Haul