Claude Opus 4.8 lidera o índice de inteligência, mas Mythos domina em hacking

Anthropic released its newest model, Claude Opus 4.8, nesta semana, com uma pequena vantagem em um benchmark de inteligência, mas atrás do sistema restrito Mythos na escrita de exploits de software.

Pontos principais:

Claude Opus 4.8 lidera por pouco o Artificial Analysis Intelligence Index com 61,4, logo à frente do GPT-5.5 com 60,2.

Nos testes internos da Anthropic, Mythos produziu exploits funcionais para Firefox em 70,8% dos alvos, contra 8,8% do Opus 4.8.

Mythos permanece limitado a parceiros selecionados do Project Glasswing, enquanto o Opus 4.8 é lançado ao mesmo preço de seu antecessor.

Vantagem do Opus 4.8 em benchmarks

A empresa lançou o Opus 4.8 nesta semana e o precificou em US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída, mantendo a mesma tarifa do Opus 4.7 anterior.

Testadores independentes relatam que o modelo agora lidera o Artificial Analysis Intelligence Index com 61,4, uma média de dez avaliações, ligeiramente à frente do GPT-5.5, com 60,2. A Anthropic descreve a atualização como um passo modesto e incremental, em vez do salto geracional que o nome poderia sugerir.

Em programação agentiva, o Opus 4.8 alcança 69,2% no SWE-bench Pro, um benchmark que pede ao modelo para corrigir bugs reais em grandes repositórios de código, enquanto o GPT-5.5 chega a 58,6%.

Os dois sistemas ficam quase empatados em questões de ciência em nível de pós-graduação, ambos próximos de 94%, e o Opus 4.8 lidera por pouco um amplo exame de raciocínio em que seus predecessores ficaram para trás.

Mythos supera ambos nos trabalhos de engenharia mais difíceis, marcando 77,8% naquele mesmo benchmark de código e uma vantagem ainda maior em tarefas que misturam código com capturas de tela. Anthropic restricts Mythos to a vetted set of partners sob seu programa Project Glasswing, em vez de vendê-lo abertamente. Ela cobra US$ 25 e US$ 125 por milhão de tokens para o preview, cinco vezes a tarifa do Opus.

Também leia: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Domínio cibernético do Mythos

A maior diferença aparece na segurança ofensiva.

Com as proteções desativadas, Mythos produced um exploit totalmente funcional em 70,8% dos alvos do Firefox nas avaliações da própria Anthropic, enquanto o Opus 4.8 atingiu apenas 8,8%.

Em um teste separado, baseado em código de código aberto, o Opus 4.8 deixou de pontuar em 61,5% dos alvos, mais que o dobro da taxa de falha de 23,3% registrada pelo Mythos.

Um teste público entre modelos, conduzido pelo Berkeley RDI, emparelhou cada sistema com seu próprio agente de programação em 898 vulnerabilidades reais, em que Mythos escreveu 157 exploits funcionais, contra 120 do GPT-5.5.

O GPT-5.5 ainda manteve uma vantagem em exploração em nível de kernel, liderando o Mythos por 22 a 12 nesse subconjunto específico. O UK AI Security Institute o colocou ligeiramente à frente do Mythos em tarefas cibernéticas avançadas, com 71,4% contra 68,6%.

A Anthropic revelou o Mythos em abril, depois que o modelo found thousands of previously unknown flaws em grandes sistemas operacionais e em todos os principais navegadores, com centenas relatadas apenas no Firefox. A empresa então o reteve do lançamento público, receosa de que as mesmas habilidades de escrever exploits pudessem ajudar atacantes tão facilmente quanto os defensores que ele foi criado para apoiar.

Leia em seguida: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears