Claude Mythos resolve hack AISI de 32 etapas em 6 de 10 tentativas

Claude Mythos resolve hack AISI de 32 etapas em 6 de 10 tentativas

Um novo checkpoint do Claude Mythos Preview da Anthropic se tornou o primeiro modelo de IA a resolver ambas as simulações de ciberataque do governo do Reino Unido, levantando novas questões sobre hacking autônomo.

AISI relata avanço do Mythos

O AI Security Institute do Reino Unido relatou na quarta-feira que o novo checkpoint do Mythos concluiu seu ataque de 32 etapas à rede corporativa, "The Last Ones", em 6 de 10 tentativas. A versão anterior havia conseguido apenas 3 de 10.

O modelo atualizado também quebrou "Cooling Tower", um cyber range de sistemas de controle industrial que nenhum modelo anterior havia passado, em 3 de 10 tentativas.

O GPT-5.5 da rival OpenAI foi testado no mesmo exercício. Ele resolveu "The Last Ones" em 3 de 10 tentativas, mas não concluiu "Cooling Tower".

AISI executou os ranges com um orçamento de computação de 100 milhões de tokens por tentativa, e a agência observou que o desempenho continuou a escalar nesse teto, sugerindo que orçamentos maiores aumentariam ainda mais as taxas de sucesso.

Também leia: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok

Tempo de duplicação continua encolhendo

AISI acompanha o progresso em cibersegurança por meio de benchmarks de horizonte temporal, medindo quanto tempo uma tarefa autônoma um modelo consegue concluir com 80% de confiabilidade. Em novembro de 2025, a agência estimou um tempo de duplicação de 8 meses. Em fevereiro de 2026, esse número havia sido comprimido para 4,7 meses, e tanto o Mythos quanto o GPT-5.5 desde então excederam a tendência mais rápida.

A agência reconheceu incerteza sobre se os resultados mais recentes sinalizam uma nova aceleração ou um salto pontual.

A organização de pesquisa sem fins lucrativos METR, que acompanha IA em tarefas de software em vez de cyber ranges, produziu uma estimativa semelhante, de aproximadamente 4,2 meses. AISI disse que a convergência fortalece a tese de que a tendência reflete ganhos reais de capacidade, e não uma peculiaridade de um único conjunto de avaliações.

O instituto enfatizou que seus ranges não têm defensores ativos, então os resultados mostram o que os modelos podem fazer contra redes fracamente protegidas, e não contra sistemas corporativos endurecidos.

Por que saltos de capacidade importam

O novo checkpoint do Mythos não chegou com um novo lançamento de modelo. AISI usou a mesma versão que a Anthropic implantou no mês passado com o Project Glasswing, seu programa de parceria em segurança, após receber uma build atualizada do mesmo modelo.

"Saltos notáveis de capacidade nem sempre exigem novos lançamentos de modelo", escreveu o instituto. Isso contraria a suposição de que os defensores podem se ajustar aos ciclos de lançamento.

A Anthropic apresentou o Mythos Preview em 7 de abril, enquadrando o modelo como um ponto de virada para o setor de segurança depois que ele identificou falhas de dia zero em grandes sistemas operacionais e navegadores em testes internos. A empresa disse que havia retido um lançamento mais amplo por causa dessas capacidades, e a avaliação anterior de abril da AISI apontou o Mythos como um claro avanço em relação a sistemas de fronteira anteriores.

Leia a seguir: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO

Isenção de responsabilidade e aviso de risco: As informações fornecidas neste artigo são apenas para fins educacionais e informativos e são baseadas na opinião do autor. Elas não constituem aconselhamento financeiro, de investimento, jurídico ou tributário. Ativos de criptomoedas são altamente voláteis e sujeitos a alto risco, incluindo o risco de perder todo ou uma quantia substancial do seu investimento. Negociar ou manter ativos cripto pode não ser adequado para todos os investidores. As opiniões expressas neste artigo são exclusivamente do(s) autor(es) e não representam a política oficial ou posição da Yellow, seus fundadores ou seus executivos. Sempre conduza sua própria pesquisa minuciosa (D.Y.O.R.) e consulte um profissional financeiro licenciado antes de tomar qualquer decisão de investimento.
Claude Mythos resolve hack AISI de 32 etapas em 6 de 10 tentativas | Yellow.com