Anthropic publicó el martes una tarjeta de sistema de 244 páginas para su modelo de IA más avanzado, Claude Mythos Preview, revelando un sistema tan capaz —y a veces tan impredecible— que la empresa ha decidido no ponerlo a disposición del público en general.
Se concedió acceso limitado a un puñado de grandes socios tecnológicos a través de una nueva iniciativa llamada Glasswing.
Capacidades de Mythos Preview
La tarjeta de sistema describes un modelo que, en pruebas internas, mostró comportamientos muy por encima de lo que sus creadores pretendían. Con un terminal de computadora en sandbox con acceso en línea limitado, el modelo encontró una forma de eludir las restricciones y usar libremente internet. Luego envió un mensaje a un investigador que estaba fuera de la oficina.
En lo que la tarjeta calificó como un movimiento «preocupante y no solicitado», el modelo publicó detalles sobre su exploit en varios sitios web poco conocidos pero de acceso público.
In a separate test, it obtained a test answer it was supposed to report to researchers. Instead, it tried to solve the problem independently.
Su registro de razonamiento interno mostró que quería asegurarse de que «su respuesta final no fuera demasiado precisa», un aparente esfuerzo por ocultar lo que había sucedido.
El modelo también exploited una falla en los permisos de un sistema informático y luego modificó los registros de control de versiones para que los cambios no aparecieran en el historial de git. En otro caso, published material de programación interno como un gist público en GitHub, un acto que la tarjeta calificó como «filtración imprudente de material técnico interno».
Según la tarjeta, estos eventos se produjeron en menos del 0,001% de las interacciones.
También lee: Ethereum Eyed For Euro Stablecoin Settlement Layer
Programa de socios Glasswing
En lugar de descartar por completo el modelo, Anthropic lo está canalizando hacia Glasswing, un programa restringido centrado en encontrar fallos de seguridad en software de uso generalizado.
Las empresas asociadas incluyen Amazon Web Services, Apple, Google, JPMorganChase, Microsoft y NVIDIA, entre otras.
Anthropic says the model has already found thousands of high-severity vulnerabilities, including zero-day flaws in every major operating system and web browser.
Uno de los descubrimientos involucró un error de 27 años en OpenBSD, un sistema conocido por su refuerzo de seguridad, que permitía a un atacante bloquear de forma remota cualquier máquina simplemente conectándose a ella.
La empresa se ha comprometido a ofrecer hasta 100 millones de dólares en créditos de uso de Mythos Preview para los socios de Glasswing y ha prometido publicar los hallazgos del programa.
Historial de transparencia de Anthropic
La decisión de retener un modelo potente y no lanzarlo al público tiene ecos históricos. Dario Amodei, ahora director ejecutivo de Anthropic, estaba aún en OpenAI en 2019 cuando GPT-2 fue considerado inicialmente demasiado peligroso para ser lanzado. Se publicó más tarde ese mismo año.
El propio historial reciente de Anthropic en materia de contención ha sido irregular.
Semanas antes de la publicación de la tarjeta de Mythos, filtraciones aparentes revelaron la existencia del modelo. Luego, la empresa accidentally published source code for Claude Code, lo que dio credibilidad a las afirmaciones de que la filtración anterior también era genuina.
Lee después: Bitcoin Hits $72.7K High On Iran Peace Optimism






