Claude Mythos resolve hack AISI de 32 etapas em 6 de 10 tentativas

Claude Mythos resolve hack AISI de 32 etapas em 6 de 10 tentativas

Um novo checkpoint do Claude Mythos Preview da Anthropic tornou‑se o primeiro modelo de IA a resolver ambos os cenários de simulação de ciberataque do governo do Reino Unido, levantando novas questões sobre hacking autônomo.

AISI relata avanço do Mythos

O AI Security Institute do Reino Unido relatou na quarta‑feira que o novo checkpoint do Mythos concluiu seu cenário de ataque a rede corporativa de 32 etapas, “The Last Ones”, em 6 de 10 tentativas. A versão anterior havia conseguido apenas 3 de 10.

O modelo atualizado também quebrou “Cooling Tower”, um cenário de sistema de controle industrial que nenhum modelo anterior havia aprovado, em 3 de 10 tentativas.

O rival GPT‑5.5 da OpenAI foi testado no mesmo exercício. Ele resolveu “The Last Ones” em 3 de 10 tentativas, mas não concluiu “Cooling Tower”.

A AISI executou os cenários com um orçamento de computação de 100 milhões de tokens por tentativa, e a agência observou que o desempenho continuou escalando nesse teto, sugerindo que orçamentos maiores aumentariam ainda mais as taxas de sucesso.

Leia também: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok

Tempo de duplicação continua encolhendo

A AISI acompanha o progresso em cibersegurança por meio de benchmarks de horizonte temporal, medindo quão longa é a tarefa autônoma que um modelo consegue concluir com 80% de confiabilidade. Em novembro de 2025, a agência estimou um tempo de duplicação de 8 meses. Em fevereiro de 2026, esse número havia sido comprimido para 4,7 meses, e tanto o Mythos quanto o GPT‑5.5 desde então superaram essa tendência mais rápida.

A agência reconheceu incerteza sobre se os resultados mais recentes indicam uma nova aceleração ou um salto pontual.

A organização de pesquisa sem fins lucrativos METR, que acompanha IA em tarefas de software em vez de cenários de ciberataque, chegou a um número semelhante, de aproximadamente 4,2 meses. A AISI disse que essa convergência fortalece o argumento de que a tendência reflete ganhos reais de capacidade, e não uma peculiaridade de um único conjunto de avaliação.

O instituto enfatizou que seus cenários não contam com defensores ativos, portanto os resultados mostram o que os modelos podem fazer contra redes fracamente protegidas, em vez de sistemas corporativos fortemente protegidos.

Por que saltos de capacidade importam

O novo checkpoint do Mythos não chegou acompanhado de um novo lançamento de modelo. A AISI usou a mesma versão que a Anthropic implantou no mês passado com o Project Glasswing, seu programa de parceria em segurança, após receber uma compilação atualizada do mesmo modelo.

“Saltos notáveis de capacidade nem sempre exigem novos lançamentos de modelo”, escreveu o instituto. Isso vai contra a suposição de que os defensores podem se orientar pelos ciclos de lançamento.

A Anthropic apresentou o Mythos Preview em 7 de abril, enquadrando o modelo como um ponto de inflexão para a indústria de segurança depois que ele identificou falhas de dia zero em grandes sistemas operacionais e navegadores em testes internos. A empresa disse que havia adiado um lançamento mais amplo por causa dessas capacidades, e a avaliação anterior da AISI em abril apontou o Mythos como um claro avanço em relação a sistemas de fronteira anteriores.

Leia a seguir: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO

Disclaimer e aviso de risco: As informações fornecidas neste artigo são apenas para fins educacionais e informativos e baseiam-se na opinião do autor. Não constituem aconselhamento financeiro, de investimento, legal ou fiscal. Os ativos de criptomoeda são altamente voláteis e sujeitos a alto risco, incluindo o risco de perder todo ou uma quantia substancial do seu investimento. Negociar ou deter ativos cripto pode não ser adequado para todos os investidores. As opiniões expressas neste artigo são exclusivamente do(s) autor(es) e não representam a política oficial ou posição da Yellow, seus fundadores ou executivos. Sempre conduza a sua própria pesquisa minuciosa (D.Y.O.R.) e consulte um profissional financeiro licenciado antes de tomar qualquer decisão de investimento.
Claude Mythos resolve hack AISI de 32 etapas em 6 de 10 tentativas | Yellow.com