Anthropic abrirá el acceso público a Claude Mythos cuando las protecciones alcancen el nivel necesario, quizá en 12 meses

Anthropic dice que planea dar acceso público a Mythos, its vulnerability-hunting AI, pero solo cuando construya salvaguardas que aún no existen.

Puntos clave:

Anthropic planea lanzar ampliamente los modelos de clase Mythos después de ampliar primero el acceso a gobiernos de EE. UU. y aliados.

La empresa admite que ninguna firma, incluida ella misma, ha creado salvaguardas lo bastante sólidas para impedir el uso indebido.

Mythos ha detectado más de 23.000 problemas en 1.000 proyectos de código abierto, incluidos 6.202 fallos de gravedad alta o crítica.

Lanzamiento de Anthropic Mythos

Anthropic confirmó el plan en una actualización de Project Glasswing, su programa de seguridad de acceso limitado, y un informe aparte indicó que el calendario sigue siendo incierto.

La compañía afirmó que primero trabajaría con los gobiernos de EE. UU. y países aliados para ampliar el programa. Un lanzamiento más amplio de «modelos de clase Mythos» llegaría en un futuro cercano.

Anthropic fue directa sobre el riesgo. Afirmó que ninguna empresa, incluida ella misma, ha construido salvaguardas lo bastante fuertes como para evitar que el modelo sea mal utilizado y cause daños graves.

Aun así, la compañía espera que herramientas similares se difundan rápidamente y predice que modelos de nivel Mythos estarán ampliamente disponibles en un plazo de entre seis y doce meses.

Mythos debutó en abril. Anthropic dijo que generó exploits funcionales el 72,4 % de las veces en las pruebas, frente a casi cero por ciento para un modelo anterior de Claude.

También lee: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks

Hallazgos de vulnerabilidades de Mythos

Desde su debut, el modelo ha analizado más de 1.000 proyectos de código abierto y ha encontrado 23.019 problemas, de los cuales 6.202 se clasificaron como de gravedad alta o crítica.

Un hallazgo destacó especialmente. Mythos descubrió un fallo en la biblioteca criptográfica wolfSSL, utilizada por miles de millones de dispositivos, que podría haber permitido a atacantes falsificar certificados e impersonar bancos o proveedores de correo electrónico. El fallo ya ha sido corregido.

La avalancha de informes ha sobrecargado a las personas encargadas de solucionarlos. Los mantenedores de proyectos de código abierto han pedido a Anthropic que reduzca el ritmo de las divulgaciones, alegando que el volumen supera su capacidad.

Los investigadores ven un desequilibrio más profundo. Anthropic sostiene que ahora es mucho más fácil encontrar fallos que corregirlos, y la empresa se asoció con el proyecto Alpha-Omega de la Open Source Security Foundation para ayudar a los mantenedores a priorizar la acumulación de informes.

La system card de Claude Mythos predice que la IA acabará favoreciendo a los defensores, aunque Anthropic reconoce que, por ahora, los atacantes podrían tener la ventaja.

Cuando Mythos se reveló por primera vez, Anthropic dio acceso a más de 50 organizaciones, incluidas Apple, Microsoft y Google, junto con cerca de 100 millones de dólares en créditos de uso, reteniendo el modelo del público debido a su capacidad para convertir fallos de software en armas.

Lee también: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High