Um novo checkpoint do Claude Mythos Preview da Anthropic se tornou o primeiro modelo de IA a resolver ambas as simulações de ciberataque do governo do Reino Unido, levantando novas questões sobre hacking autônomo.
AISI relata avanço do Mythos
O AI Security Institute do Reino Unido relatou na quarta-feira que o novo checkpoint do Mythos concluiu seu ataque de 32 etapas à rede corporativa, "The Last Ones", em 6 de 10 tentativas. A versão anterior havia conseguido apenas 3 de 10.
O modelo atualizado também quebrou "Cooling Tower", um cyber range de sistemas de controle industrial que nenhum modelo anterior havia passado, em 3 de 10 tentativas.
O GPT-5.5 da rival OpenAI foi testado no mesmo exercício. Ele resolveu "The Last Ones" em 3 de 10 tentativas, mas não concluiu "Cooling Tower".
AISI executou os ranges com um orçamento de computação de 100 milhões de tokens por tentativa, e a agência observou que o desempenho continuou a escalar nesse teto, sugerindo que orçamentos maiores aumentariam ainda mais as taxas de sucesso.
Também leia: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok
Tempo de duplicação continua encolhendo
AISI acompanha o progresso em cibersegurança por meio de benchmarks de horizonte temporal, medindo quanto tempo uma tarefa autônoma um modelo consegue concluir com 80% de confiabilidade. Em novembro de 2025, a agência estimou um tempo de duplicação de 8 meses. Em fevereiro de 2026, esse número havia sido comprimido para 4,7 meses, e tanto o Mythos quanto o GPT-5.5 desde então excederam a tendência mais rápida.
A agência reconheceu incerteza sobre se os resultados mais recentes sinalizam uma nova aceleração ou um salto pontual.
A organização de pesquisa sem fins lucrativos METR, que acompanha IA em tarefas de software em vez de cyber ranges, produziu uma estimativa semelhante, de aproximadamente 4,2 meses. AISI disse que a convergência fortalece a tese de que a tendência reflete ganhos reais de capacidade, e não uma peculiaridade de um único conjunto de avaliações.
O instituto enfatizou que seus ranges não têm defensores ativos, então os resultados mostram o que os modelos podem fazer contra redes fracamente protegidas, e não contra sistemas corporativos endurecidos.
Por que saltos de capacidade importam
O novo checkpoint do Mythos não chegou com um novo lançamento de modelo. AISI usou a mesma versão que a Anthropic implantou no mês passado com o Project Glasswing, seu programa de parceria em segurança, após receber uma build atualizada do mesmo modelo.
"Saltos notáveis de capacidade nem sempre exigem novos lançamentos de modelo", escreveu o instituto. Isso contraria a suposição de que os defensores podem se ajustar aos ciclos de lançamento.
A Anthropic apresentou o Mythos Preview em 7 de abril, enquadrando o modelo como um ponto de virada para o setor de segurança depois que ele identificou falhas de dia zero em grandes sistemas operacionais e navegadores em testes internos. A empresa disse que havia retido um lançamento mais amplo por causa dessas capacidades, e a avaliação anterior de abril da AISI apontou o Mythos como um claro avanço em relação a sistemas de fronteira anteriores.
Leia a seguir: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO





