Claude Mythos resolve ataque AISI de 32 etapas em 6 de 10 tentativas

Um novo checkpoint do Claude Mythos Preview da Anthropic se tornou o primeiro modelo de IA a resolver ambas as simulações de ciberataque do governo do Reino Unido, levantando novas questões sobre hacking autônomo.

AISI relata avanço do Mythos

O AI Security Institute do Reino Unido relatou na quarta-feira que o novo checkpoint do Mythos concluiu seu ataque de 32 etapas à rede corporativa, “The Last Ones”, em 6 de 10 tentativas. A versão anterior havia conseguido apenas 3 de 10.

O modelo atualizado também venceu “Cooling Tower”, um cyber range de sistema de controle industrial que nenhum modelo anterior havia aprovado, em 3 de 10 tentativas.

O rival GPT-5.5 da OpenAI foi testado no mesmo exercício. Ele resolveu “The Last Ones” em 3 de 10 tentativas, mas não concluiu “Cooling Tower”.

A AISI executou os ranges com um orçamento de computação de 100 milhões de tokens por tentativa e observou que o desempenho continuou escalando nesse teto, sugerindo que orçamentos maiores aumentariam ainda mais as taxas de sucesso.

Também leia: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok

Tempo de duplicação continua encolhendo

A AISI acompanha o progresso em cibersegurança por meio de benchmarks de horizonte temporal, medindo quanto tempo dura uma tarefa autônoma que um modelo consegue concluir com 80% de confiabilidade. Em novembro de 2025, a agência estimou um tempo de duplicação de 8 meses. Em fevereiro de 2026, esse número havia encolhido para 4,7 meses, e tanto o Mythos quanto o GPT-5.5 desde então superaram essa tendência mais rápida.

A agência reconheceu incerteza sobre se os resultados mais recentes sinalizam uma nova aceleração ou um salto pontual.

A organização de pesquisa sem fins lucrativos METR, que acompanha a IA em tarefas de software em vez de cyber ranges, produziu um número semelhante de aproximadamente 4,2 meses. A AISI disse que essa convergência fortalece o argumento de que a tendência reflete ganhos reais de capacidade, e não uma peculiaridade de um único conjunto de avaliações.

O instituto enfatizou que seus ranges não contam com defensores ativos, de modo que os resultados mostram o que os modelos podem fazer contra redes fracamente protegidas, e não contra sistemas corporativos fortemente protegidos.

Por que saltos de capacidade importam

O novo checkpoint do Mythos não foi lançado junto com uma nova versão de modelo. A AISI usou a mesma versão que a Anthropic implantou no mês passado com o Project Glasswing, seu programa de parceria em segurança, após receber uma nova build do mesmo modelo.

“Saltos notáveis de capacidade nem sempre exigem novas versões de modelo”, escreveu o instituto. Isso contraria a suposição de que os defensores podem se orientar pelos ciclos de lançamento.

A Anthropic apresentou o Mythos Preview em 7 de abril, descrevendo o modelo como um ponto de virada para o setor de segurança depois que ele identificou falhas de dia zero em grandes sistemas operacionais e navegadores em testes internos. A empresa disse que havia adiado um lançamento mais amplo por causa dessas capacidades, e a avaliação anterior da AISI em abril destacou o Mythos como um claro salto em relação a sistemas de fronteira anteriores.

Leia a seguir: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO