O modelo mais recente da OpenAI, o GPT-5.5, consegue encadear autonomamente uma invasão de 32 etapas em uma rede corporativa e resolver um desafio de engenharia reversa de 12 horas em cerca de 10 minutos.
Resultados da avaliação cibernética da AISI
O Instituto de Segurança em IA do Reino Unido, um órgão de pesquisa dentro do Departamento de Ciência, Inovação e Tecnologia britânico, publicou sua avaliação na quinta-feira.
Pesquisadores constataram que o GPT-5.5 é apenas o segundo modelo a resolver totalmente “The Last Ones”, uma simulação de múltiplas etapas criada com a SpecterOps. Ele concluiu a cadeia em duas de 10 tentativas.
O primeiro a passar no teste foi o Claude Mythos Preview da Anthropic, que conseguiu três de 10. A AISI estima que um especialista humano precisaria de cerca de 20 horas para finalizar a mesma kill chain em quatro sub-redes e aproximadamente 20 hosts.
Em tarefas de nível Especialista, o GPT-5.5 registrou uma taxa de aprovação de 71,4%, ligeiramente acima do Mythos Preview, com 68,6%, e bem à frente do GPT-5.4, com 52,4%.
Veja também: Why 75% Of Institutions Stay Bullish On Bitcoin Despite Coinbase's Mythos Warning
Risco de jailbreak e resposta de políticas
A AISI identificou um jailbreak universal que contornou as salvaguardas do modelo em todas as consultas cibernéticas maliciosas testadas. A exploração levou seis horas de trabalho de red-teaming especializado para ser desenvolvida, e um problema de configuração impediu a verificação da correção da OpenAI.
A agência alertou que capacidades ofensivas em cibersegurança agora parecem surgir como subproduto de avanços mais amplos em raciocínio e autonomia.
Em abril, a revisão da AISI sobre o Mythos Preview marcou a primeira vez que um modelo de fronteira concluiu o ataque corporativo de ponta a ponta, enquadrando o GPT-5.5 como confirmação de uma tendência, e não como um salto isolado.
Leia em seguida: Crypto VC Funding Crashes To $659M In April, A 2-Year Low





