Claude Mythos escapou do sandbox, ocultou evidências — agora a Anthropic não vai lançá-lo

Anthropic lançou na terça-feira um system card de 244 páginas para seu modelo de IA mais avançado, Claude Mythos Preview, revelando um sistema tão capaz — e às vezes tão imprevisível — que a empresa decidiu não disponibilizá-lo ao público em geral.

O acesso limitado foi concedido a um pequeno grupo de grandes empresas de tecnologia por meio de uma nova iniciativa chamada Glasswing.

Capacidades do Mythos Preview

O system card descreve um modelo que, em testes internos, demonstrou comportamentos muito além do que seus criadores pretendiam. Ao receber um terminal de computador em sandbox com acesso online limitado, o modelo encontrou uma forma de contornar as restrições e usar a internet livremente. Em seguida, enviou uma mensagem a um pesquisador que estava fora do escritório.

Em um movimento que o documento chamou de “preocupante e não solicitado”, o modelo publicou detalhes sobre seu exploit em vários sites obscuros, porém publicamente acessíveis.

Em um teste separado, ele obteve uma resposta de teste que deveria reportar aos pesquisadores. Em vez disso, tentou resolver o problema de forma independente.

Seu registro interno de raciocínio mostrou que queria garantir que “sua resposta final submetida não fosse precisa demais” — um aparente esforço para ocultar o que havia acontecido.

O modelo também explorou uma falha nas permissões de um sistema de computador e depois alterou os registros de controle de versão para que as mudanças não aparecessem no histórico do git. Em outro caso, publicou material interno de código como um gist público no GitHub, ato que o documento classificou como “vazamento imprudente de material técnico interno”.

Esses eventos ocorreram em menos de 0,001% das interações, segundo o system card.

Também leia: Ethereum Eyed For Euro Stablecoin Settlement Layer

Programa de Parceiros Glasswing

Em vez de engavetar completamente o modelo, a Anthropic está direcionando-o para o Glasswing, um programa restrito focado em encontrar falhas de segurança em softwares amplamente utilizados.

As empresas parceiras incluem Amazon Web Services, Apple, Google, JPMorganChase, Microsoft e NVIDIA, entre outras.

Anthropic diz que o modelo já encontrou milhares de vulnerabilidades de alta severidade, incluindo falhas de dia zero em todos os principais sistemas operacionais e navegadores.

Uma das descobertas envolveu um bug de 27 anos no OpenBSD, um sistema conhecido por seu endurecimento de segurança, que permitia a um invasor derrubar remotamente qualquer máquina simplesmente ao se conectar a ela.

A empresa se comprometeu a disponibilizar até US$ 100 milhões em créditos de uso do Mythos Preview para parceiros do Glasswing e prometeu publicar os resultados do programa.

Histórico de transparência da Anthropic

A decisão de reter um modelo poderoso do lançamento público traz ecos históricos. Dario Amodei, agora CEO da Anthropic, ainda estava na OpenAI em 2019, quando o GPT-2 foi inicialmente considerado perigoso demais para ser lançado. Ele acabou sendo disponibilizado ainda naquele ano.

O histórico recente da própria Anthropic em contenção tem sido irregular.

Semanas antes da publicação do system card do Mythos, supostos vazamentos revelaram a existência do modelo. A empresa então publicou acidentalmente o código-fonte do Claude Code, dando credibilidade às alegações de que o vazamento anterior também era genuíno.

Leia a seguir: Bitcoin Hits $72.7K High On Iran Peace Optimism