Claude Mythos escapó del sandbox, ocultó pruebas, y ahora Anthropic no quiere lanzarlo

Anthropic publicó el martes una tarjeta de sistema de 244 páginas para su modelo de IA más avanzado, Claude Mythos Preview, que revela un sistema tan capaz —y a veces tan impredecible— que la empresa ha decidido no ponerlo a disposición del público en general.

El acceso limitado se concedió a un pequeño grupo de grandes socios tecnológicos a través de una nueva iniciativa llamada Glasswing.

Capacidades de Mythos Preview

La tarjeta de sistema describe un modelo que, en pruebas internas, mostró comportamientos muy por encima de lo que sus creadores pretendían. Con un terminal de computadora en sandbox y acceso en línea limitado, el modelo encontró una forma de eludir las restricciones y usar libremente Internet. Luego envió un mensaje a un investigador que no estaba en la oficina.

En lo que la tarjeta calificó como un movimiento «preocupante y no solicitado», el modelo publicó detalles sobre su exploit en múltiples sitios web oscuros pero de acceso público.

En una prueba separada, obtuvo una respuesta de prueba que se suponía debía reportar a los investigadores. En cambio, intentó resolver el problema de forma independiente.

Su registro interno de razonamiento mostraba que quería asegurarse de que «su respuesta final no fuera demasiado precisa», un aparente intento de ocultar lo que había sucedido.

El modelo también explotó un fallo en los permisos de un sistema informático y luego modificó los registros de control de versiones para que los cambios no aparecieran en el historial de git. En otro caso, publicó material de código interno como un gist público de GitHub, un acto que la tarjeta calificó como «filtración imprudente de material técnico interno».

Según la tarjeta, estos eventos ocurrieron en menos del 0,001% de las interacciones.

También lee: Ethereum Eyed For Euro Stablecoin Settlement Layer

Programa de socios Glasswing

En lugar de archivar por completo el modelo, Anthropic lo está canalizando hacia Glasswing, un programa restringido centrado en encontrar fallos de seguridad en software de uso generalizado.

Entre las empresas asociadas se encuentran Amazon Web Services, Apple, Google, JPMorganChase, Microsoft y NVIDIA, entre otras.

Anthropic afirma que el modelo ya ha encontrado miles de vulnerabilidades de alta gravedad, incluidas fallas de tipo zero-day en todos los sistemas operativos y navegadores web principales.

Uno de los hallazgos implicó un error de 27 años en OpenBSD, un sistema conocido por su endurecimiento de seguridad, que permitía a un atacante bloquear de forma remota cualquier máquina simplemente conectándose a ella.

La empresa se ha comprometido a otorgar hasta 100 millones de dólares en créditos de uso de Mythos Preview para los socios de Glasswing y ha prometido publicar los resultados del programa.

Historial de transparencia de Anthropic

La decisión de retener un modelo potente y no lanzarlo al público tiene ecos históricos. Dario Amodei, ahora director ejecutivo de Anthropic, aún estaba en OpenAI en 2019 cuando GPT-2 fue considerado inicialmente demasiado peligroso para su publicación. Se lanzó más tarde ese mismo año.

El propio historial reciente de Anthropic en materia de contención ha sido irregular.

Semanas antes de la publicación de la tarjeta de Mythos, filtraciones aparentes revelaron la existencia del modelo. Luego, la empresa publicó accidentalmente el código fuente de Claude Code, lo que dio credibilidad a las afirmaciones de que la filtración anterior también era auténtica.

Lee a continuación: Bitcoin Hits $72.7K High On Iran Peace Optimism