Claude Opus 4.8 lidera o Índice de Inteligência, mas Mythos domina em hacking

Anthropic released its newest model, Claude Opus 4.8, nesta semana, com uma pequena vantagem em um benchmark de inteligência, mas atrás do sistema restrito Mythos na escrita de exploits de software.

Pontos principais:

Claude Opus 4.8 lidera por pouco o Artificial Analysis Intelligence Index com 61,4, à frente do GPT-5.5 com 60,2.

Nos testes internos da Anthropic, o Mythos produziu exploits funcionais para o Firefox em 70,8% dos alvos, contra 8,8% do Opus 4.8.

O Mythos permanece limitado a parceiros avaliados do Projeto Glasswing, enquanto o Opus 4.8 é lançado ao mesmo preço de seu antecessor.

Vantagem do Opus 4.8 em benchmarks

A empresa lançou o Opus 4.8 nesta semana e o precificou em US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída, mantendo a mesma taxa do Opus 4.7 anterior.

Testadores independentes relatam que o modelo agora lidera o Artificial Analysis Intelligence Index com 61,4, uma média de dez avaliações, ligeiramente à frente do GPT-5.5, com 60,2. A Anthropic apresenta a atualização como um avanço modesto e incremental, em vez de o salto geracional que o nome poderia sugerir.

Em programação agentiva, o Opus 4.8 marca 69,2% no SWE-bench Pro, um benchmark que pede para o modelo corrigir bugs reais em grandes repositórios de código, enquanto o GPT-5.5 chega a 58,6%.

Os dois sistemas ficam praticamente empatados em questões de ciência em nível de pós-graduação, ambos próximos de 94%, e o Opus 4.8 lidera por pouco um exame amplo de raciocínio em que seus predecessores ficaram atrás.

O Mythos fica acima de ambos nos trabalhos de engenharia mais difíceis, alcançando 77,8% nesse mesmo benchmark de programação e uma vantagem maior em tarefas que misturam código com capturas de tela. Anthropic restricts Mythos to a vetted set of partners em seu programa Project Glasswing, em vez de vendê-lo abertamente. A empresa cobra US$ 25 e US$ 125 por milhão de tokens na prévia, cinco vezes a tarifa do Opus.

Also Read: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Domínio cibernético do Mythos

A diferença mais ampla aparece na segurança ofensiva.

Com as salvaguardas desligadas, o Mythos produced um exploit totalmente funcional em 70,8% dos alvos do Firefox nas avaliações da própria Anthropic, enquanto o Opus 4.8 atingiu apenas 8,8%.

Em um teste separado, baseado em código open source, o Opus 4.8 ficou sem pontuar em 61,5% dos alvos, mais que o dobro da taxa de falha de 23,3% registrada pelo Mythos.

Um teste público entre modelos, conduzido pelo Berkeley RDI, emparelhou cada sistema com seu próprio agente de programação em 898 vulnerabilidades reais, em que o Mythos escreveu 157 exploits funcionais contra 120 do GPT-5.5.

O GPT-5.5 ainda manteve uma vantagem em exploração em nível de kernel, liderando o Mythos por 22 a 12 nesse recorte específico. O UK AI Security Institute o colocou ligeiramente à frente do Mythos em tarefas cibernéticas de nível especialista, com 71,4% contra 68,6%.

A Anthropic apresentou o Mythos em abril, depois de o modelo found thousands of previously unknown flaws em grandes sistemas operacionais e em todos os principais navegadores, com centenas reportadas apenas no Firefox. A empresa então decidiu não lançá-lo publicamente, receosa de que as mesmas habilidades de escrita de exploits pudessem ajudar invasores tão facilmente quanto os defensores para os quais foi criado.