Claude Mythos resolve ataque AISI de 32 etapas em 6 de 10 tentativas

Claude Mythos resolve ataque AISI de 32 etapas em 6 de 10 tentativas

Um novo checkpoint do Claude Mythos Preview da Anthropic se tornou o primeiro modelo de IA a resolver ambas as simulações de ciberataque do governo do Reino Unido, levantando novas questões sobre hacking autônomo.

AISI relata avanço do Mythos

O AI Security Institute do Reino Unido relatou na quarta-feira que o novo checkpoint do Mythos concluiu seu ataque de 32 etapas à rede corporativa, “The Last Ones”, em 6 de 10 tentativas. A versão anterior havia conseguido apenas 3 de 10.

O modelo atualizado também venceu “Cooling Tower”, um cyber range de sistema de controle industrial que nenhum modelo anterior havia aprovado, em 3 de 10 tentativas.

O rival GPT-5.5 da OpenAI foi testado no mesmo exercício. Ele resolveu “The Last Ones” em 3 de 10 tentativas, mas não concluiu “Cooling Tower”.

A AISI executou os ranges com um orçamento de computação de 100 milhões de tokens por tentativa e observou que o desempenho continuou escalando nesse teto, sugerindo que orçamentos maiores aumentariam ainda mais as taxas de sucesso.

Também leia: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok

Tempo de duplicação continua encolhendo

A AISI acompanha o progresso em cibersegurança por meio de benchmarks de horizonte temporal, medindo quanto tempo dura uma tarefa autônoma que um modelo consegue concluir com 80% de confiabilidade. Em novembro de 2025, a agência estimou um tempo de duplicação de 8 meses. Em fevereiro de 2026, esse número havia encolhido para 4,7 meses, e tanto o Mythos quanto o GPT-5.5 desde então superaram essa tendência mais rápida.

A agência reconheceu incerteza sobre se os resultados mais recentes sinalizam uma nova aceleração ou um salto pontual.

A organização de pesquisa sem fins lucrativos METR, que acompanha a IA em tarefas de software em vez de cyber ranges, produziu um número semelhante de aproximadamente 4,2 meses. A AISI disse que essa convergência fortalece o argumento de que a tendência reflete ganhos reais de capacidade, e não uma peculiaridade de um único conjunto de avaliações.

O instituto enfatizou que seus ranges não contam com defensores ativos, de modo que os resultados mostram o que os modelos podem fazer contra redes fracamente protegidas, e não contra sistemas corporativos fortemente protegidos.

Por que saltos de capacidade importam

O novo checkpoint do Mythos não foi lançado junto com uma nova versão de modelo. A AISI usou a mesma versão que a Anthropic implantou no mês passado com o Project Glasswing, seu programa de parceria em segurança, após receber uma nova build do mesmo modelo.

“Saltos notáveis de capacidade nem sempre exigem novas versões de modelo”, escreveu o instituto. Isso contraria a suposição de que os defensores podem se orientar pelos ciclos de lançamento.

A Anthropic apresentou o Mythos Preview em 7 de abril, descrevendo o modelo como um ponto de virada para o setor de segurança depois que ele identificou falhas de dia zero em grandes sistemas operacionais e navegadores em testes internos. A empresa disse que havia adiado um lançamento mais amplo por causa dessas capacidades, e a avaliação anterior da AISI em abril destacou o Mythos como um claro salto em relação a sistemas de fronteira anteriores.

Leia a seguir: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO

Isenção de responsabilidade e aviso de risco: As informações fornecidas neste artigo são apenas para fins educacionais e informativos e são baseadas na opinião do autor. Elas não constituem aconselhamento financeiro, de investimento, jurídico ou tributário. Ativos de criptomoedas são altamente voláteis e sujeitos a alto risco, incluindo o risco de perder todo ou uma quantia substancial do seu investimento. Negociar ou manter ativos cripto pode não ser adequado para todos os investidores. As opiniões expressas neste artigo são exclusivamente do(s) autor(es) e não representam a política oficial ou posição da Yellow, seus fundadores ou seus executivos. Sempre conduza sua própria pesquisa minuciosa (D.Y.O.R.) e consulte um profissional financeiro licenciado antes de tomar qualquer decisão de investimento.
Claude Mythos resolve ataque AISI de 32 etapas em 6 de 10 tentativas | Yellow.com