Anthropic abrirá o Claude Mythos ao público assim que as proteções alcançarem o modelo, talvez em 12 meses

Anthropic diz que pretende dar ao público acesso ao Mythos, its vulnerability-hunting AI, mas apenas depois de construir proteções que ainda não existem.

Pontos-chave:

A Anthropic planeja lançar amplamente os modelos da classe Mythos após primeiro ampliar o acesso para governos dos EUA e aliados.

A empresa admite que nenhuma organização, incluindo ela mesma, construiu proteções fortes o suficiente para impedir uso indevido.

O Mythos já sinalizou mais de 23.000 problemas em 1.000 projetos de código aberto, incluindo 6.202 falhas de alta gravidade ou críticas.

Lançamento do Anthropic Mythos

A Anthropic confirmou o plano em uma atualização do Project Glasswing, seu programa de segurança de acesso limitado, e um relatório separado apontou que o cronograma é incerto.

A empresa disse que primeiro trabalharia com governos dos EUA e de países aliados para ampliar o programa. Um lançamento mais amplo de “modelos da classe Mythos” viria em seguida, em um futuro próximo.

A Anthropic foi direta sobre o risco. Ela afirmou que nenhuma empresa, incluindo a própria, criou proteções fortes o suficiente para evitar que o modelo seja usado de forma indevida e cause danos graves.

Mesmo assim, a empresa espera que ferramentas semelhantes se espalhem rapidamente, prevendo que modelos no nível do Mythos estarão amplamente disponíveis em seis a doze meses.

O Mythos estreou em abril. A Anthropic disse que ele gerou exploits funcionais em 72,4% dos testes, contra quase zero por cento para um modelo Claude anterior.

Veja também: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks

Descobertas de vulnerabilidades do Mythos

Desde sua estreia, o modelo analisou mais de 1.000 projetos de código aberto e encontrou 23.019 problemas, dos quais 6.202 foram classificados como de alta gravidade ou críticos.

Uma descoberta se destacou. O Mythos identificou uma falha na biblioteca de criptografia wolfSSL, usada por bilhões de dispositivos, que poderia ter permitido a invasores forjar certificados e se passar por bancos ou provedores de e‑mail. A falha já foi corrigida.

A enxurrada de relatórios tem sobrecarregado as pessoas responsáveis por corrigi-los. Mantenedores de projetos de código aberto pediram que a Anthropic reduza o ritmo das divulgações, dizendo que o volume supera sua capacidade de resposta.

Pesquisadores enxergam um desequilíbrio mais profundo. A Anthropic argumenta que encontrar bugs agora é muito mais fácil do que corrigi-los e fechou parceria com o projeto Alpha-Omega da Open Source Security Foundation para ajudar mantenedores a priorizar o acúmulo de falhas.

O system card do Claude Mythos prevê que a IA acabará favorecendo os defensores, embora a Anthropic admita que, por ora, os atacantes podem ter vantagem.

Quando o Mythos foi revelado pela primeira vez, a Anthropic deu acesso a mais de 50 organizações, incluindo Apple, Microsoft e Google, juntamente com cerca de 100 milhões de dólares em créditos de uso, mantendo o modelo fora do alcance do público devido à sua capacidade de transformar falhas de software em armas.

Leia a seguir: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High