A Anthropic Tornará o Claude Mythos Público Assim que as Salvaguardas Acompanharem, Talvez em 12 Meses

A Anthropic Tornará o Claude Mythos Público Assim que as Salvaguardas Acompanharem, Talvez em 12 Meses

Anthropic diz que pretende dar ao público acesso ao Mythos, its vulnerability-hunting AI model, mas apenas quando criar salvaguardas que ainda não existem.

Pontos-chave:

  • A Anthropic planeja lançar amplamente modelos da classe Mythos após primeiro ampliar o acesso para governos dos EUA e aliados.
  • A empresa admite que nenhuma firma, incluindo ela mesma, construiu salvaguardas fortes o suficiente para impedir mau uso.
  • O Mythos já sinalizou mais de 23.000 problemas em 1.000 projetos de código aberto, incluindo 6.202 falhas de gravidade alta ou crítica.

Lançamento do Anthropic Mythos

A Anthropic confirmou o plano em uma atualização do Project Glasswing, seu programa de segurança de acesso limitado, e um relatório separado apontou o cronograma como incerto.

A empresa disse que primeiro trabalharia com governos dos EUA e de países aliados para ampliar o programa. Um lançamento mais amplo de “modelos da classe Mythos” viria em um futuro próximo.

A Anthropic foi direta sobre o risco. Ela afirmou que nenhuma empresa, incluindo a própria, construiu salvaguardas fortes o suficiente para impedir que o modelo seja mal utilizado e cause danos graves.

Mesmo assim, a empresa espera que ferramentas semelhantes se espalhem rapidamente, prevendo que modelos em nível Mythos atinjam ampla disponibilidade em seis a 12 meses.

O Mythos estreou em abril. A Anthropic disse que ele gerou exploits funcionais em 72,4% dos testes, contra quase zero por cento para um modelo Claude anterior.

Também leia: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks

Descobertas de Vulnerabilidades do Mythos

Desde sua estreia, o modelo analisou mais de 1.000 projetos de código aberto e identificou 23.019 problemas, dos quais 6.202 foram classificados como de gravidade alta ou crítica.

Uma descoberta se destacou. O Mythos encontrou uma falha na biblioteca de criptografia wolfSSL, usada por bilhões de dispositivos, que poderia ter permitido a invasores forjar certificados e se passar por bancos ou provedores de e‑mail. A falha já foi corrigida.

A enxurrada de relatórios sobrecarregou as pessoas responsáveis por corrigi-los. Mantenedores de projetos de código aberto pediram que a Anthropic desacelerasse as divulgações, dizendo que o volume supera sua capacidade.

Pesquisadores veem um desequilíbrio mais profundo. A Anthropic argumenta que encontrar bugs agora é muito mais fácil do que corrigi-los, e a empresa firmou parceria com o projeto Alpha-Omega da Open Source Security Foundation para ajudar mantenedores a priorizar o acúmulo de problemas.

O system card do Claude Mythos prevê que a IA acabará favorecendo os defensores, embora a Anthropic reconheça que, por enquanto, os atacantes podem ter vantagem.

Quando Mythos was first revealed, a Anthropic deu a mais de 50 organizações, incluindo Apple, Microsoft e Google, acesso juntamente com cerca de US$ 100 milhões em créditos de uso, retendo o modelo do público por causa de sua capacidade de transformar falhas de software em armas.

Leia em seguida: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High

Disclaimer e aviso de risco: As informações fornecidas neste artigo são apenas para fins educacionais e informativos e baseiam-se na opinião do autor. Não constituem aconselhamento financeiro, de investimento, legal ou fiscal. Os ativos de criptomoeda são altamente voláteis e sujeitos a alto risco, incluindo o risco de perder todo ou uma quantia substancial do seu investimento. Negociar ou deter ativos cripto pode não ser adequado para todos os investidores. As opiniões expressas neste artigo são exclusivamente do(s) autor(es) e não representam a política oficial ou posição da Yellow, seus fundadores ou executivos. Sempre conduza a sua própria pesquisa minuciosa (D.Y.O.R.) e consulte um profissional financeiro licenciado antes de tomar qualquer decisão de investimento.