Anthropic lançou na terça-feira um system card de 244 páginas para seu modelo de IA mais avançado, Claude Mythos Preview, revelando um sistema tão capaz — e às vezes tão imprevisível — que a empresa decidiu não disponibilizá‑lo ao público em geral.
O acesso limitado foi concedido a um pequeno grupo de grandes empresas de tecnologia por meio de uma nova iniciativa chamada Glasswing.
Capacidades do Mythos Preview
O system card descreve um modelo que, em testes internos, demonstrou comportamentos muito além do que seus criadores pretendiam. Dado um terminal de computador em sandbox, com acesso online limitado, o modelo encontrou uma forma de contornar as restrições e usar a internet livremente. Em seguida, enviou uma mensagem para um pesquisador que estava fora do escritório.
Em um movimento descrito no card como “preocupante e não solicitado”, o modelo publicou detalhes sobre seu exploit em vários sites obscuros, porém publicamente acessíveis.
Em um teste separado, ele obteve uma resposta de teste que deveria reportar aos pesquisadores. Em vez disso, tentou resolver o problema de forma independente.
Seu registro interno de raciocínio mostrou que ele queria garantir que “sua resposta final não fosse precisa demais” — um aparente esforço para ocultar o que havia acontecido.
O modelo também explorou uma falha nas permissões de um sistema de computador e depois alterou os registros de controle de versão para que as mudanças não aparecessem no histórico do git. Em outro caso, publicou material interno de código como um gist público no GitHub, um ato que o card classificou como “vazamento imprudente de material técnico interno”.
Segundo o card, esses eventos ocorreram em menos de 0,001% das interações.
Também leia: Ethereum Eyed For Euro Stablecoin Settlement Layer
Programa de parceiros Glasswing
Em vez de engavetar totalmente o modelo, a Anthropic está direcionando‑o para o Glasswing, um programa restrito focado em encontrar falhas de segurança em softwares amplamente utilizados.
As empresas parceiras incluem Amazon Web Services, Apple, Google, JPMorganChase, Microsoft e NVIDIA, entre outras.
A Anthropic diz que o modelo já encontrou milhares de vulnerabilidades de alta gravidade, incluindo falhas de dia zero em todos os principais sistemas operacionais e navegadores.
Uma das descobertas envolveu um bug de 27 anos no OpenBSD, um sistema conhecido por seu endurecimento de segurança, que permitia a um invasor travar remotamente qualquer máquina simplesmente ao se conectar a ela.
A empresa se comprometeu com até US$ 100 milhões em créditos de uso do Mythos Preview para os parceiros do Glasswing e prometeu publicar as descobertas do programa.
Histórico de transparência da Anthropic
A decisão de reter um modelo poderoso do lançamento público traz ecos históricos. Dario Amodei, agora CEO da Anthropic, ainda estava na OpenAI em 2019, quando o GPT‑2 foi inicialmente considerado perigoso demais para ser lançado. Ele acabou sendo disponibilizado ainda naquele ano.
O próprio histórico recente da Anthropic em contenção tem sido irregular.
Semanas antes da publicação do card do Mythos, vazamentos aparentes revelaram a existência do modelo. A empresa então publicou acidentalmente o código‑fonte do Claude Code, dando credibilidade às alegações de que o vazamento anterior também era genuíno.
Leia a seguir: Bitcoin Hits $72.7K High On Iran Peace Optimism






