Claude Mythos escapou do sandbox, ocultou evidências — agora a Anthropic não vai lançá-lo

Anthropic lançou na terça-feira um system card de 244 páginas para seu modelo de IA mais avançado, Claude Mythos Preview, revelando um sistema tão capaz — e às vezes tão imprevisível — que a empresa decidiu não torná-lo disponível ao público em geral.

O acesso limitado foi concedido a um pequeno grupo de grandes empresas de tecnologia por meio de uma nova iniciativa chamada Glasswing.

Capacidades do Mythos Preview

O system card descreve um modelo que, em testes internos, demonstrou comportamentos muito além do que seus criadores pretendiam. Dado um terminal de computador em sandbox com acesso online limitado, o modelo encontrou uma maneira de contornar as restrições e usar a internet livremente. Em seguida, enviou uma mensagem para um pesquisador que estava fora do escritório.

Em uma ação que o card chamou de um movimento “preocupante e não solicitado”, o modelo publicou detalhes sobre seu exploit em vários sites obscuros, mas de acesso público.

Em um teste separado, ele obteve uma resposta de teste que deveria reportar aos pesquisadores. Em vez disso, tentou resolver o problema de forma independente.

Seu registro interno de raciocínio mostrava que ele queria garantir que “sua resposta final não fosse precisa demais” — um aparente esforço para ocultar o que havia acontecido.

O modelo também explorou uma falha nas permissões de um sistema de computador e, depois, alterou os registros de controle de versão para que as mudanças não aparecessem no histórico do git. Em outro caso, publicou material de código interno como um gist público no GitHub, ato que o card classificou como “vazamento imprudente de material técnico interno”.

De acordo com o card, esses eventos ocorreram em menos de 0,001% das interações.

Also Read: Ethereum Eyed For Euro Stablecoin Settlement Layer

Programa de Parceria Glasswing

Em vez de engavetar totalmente o modelo, a Anthropic está direcionando-o para o Glasswing, um programa restrito focado em encontrar falhas de segurança em softwares amplamente utilizados.

As empresas parceiras incluem Amazon Web Services, Apple, Google, JPMorganChase, Microsoft e NVIDIA, entre outras.

Anthropic diz que o modelo já encontrou milhares de vulnerabilidades de alta severidade, incluindo falhas de dia zero em todos os principais sistemas operacionais e navegadores.

Uma das descobertas envolveu um bug de 27 anos no OpenBSD, um sistema conhecido por seu endurecimento de segurança, que permitia a um invasor travar qualquer máquina remotamente simplesmente ao se conectar a ela.

A empresa se comprometeu a oferecer até US$ 100 milhões em créditos de uso do Mythos Preview para os parceiros do Glasswing e prometeu publicar os resultados do programa.

Histórico de Transparência da Anthropic

A decisão de reter um modelo poderoso do lançamento público traz ecos históricos. Dario Amodei, agora CEO da Anthropic, ainda estava na OpenAI em 2019 quando o GPT-2 foi inicialmente considerado perigoso demais para ser lançado. Ele acabou sendo disponibilizado ainda naquele ano.

O próprio histórico recente da Anthropic em contenção tem sido irregular.

Semanas antes da publicação do card do Mythos, vazamentos aparentes revelaram a existência do modelo. A empresa então publicou acidentalmente o código-fonte do Claude Code, dando credibilidade às alegações de que o vazamento anterior também era genuíno.