Anthropic released its newest model, Claude Opus 4.8, nesta semana, com uma pequena vantagem em um benchmark de inteligência, mas atrás do sistema restrito Mythos na escrita de exploits de software.
Pontos-chave:
- Claude Opus 4.8 lidera por pouco o Artificial Analysis Intelligence Index com 61,4, à frente do GPT-5.5, com 60,2.
- Nos testes internos da Anthropic, o Mythos produziu exploits funcionais para o Firefox em 70,8% dos alvos, contra 8,8% do Opus 4.8.
- O Mythos permanece limitado a parceiros avaliados do Project Glasswing, enquanto o Opus 4.8 é lançado pelo mesmo preço de seu antecessor.
Liderança do Opus 4.8 em benchmarks
A empresa lançou o Opus 4.8 nesta semana e o precificou em US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída, mantendo a mesma tarifa do Opus 4.7 anterior.
Testadores independentes relatam que o modelo agora lidera o Artificial Analysis Intelligence Index com 61,4, uma média de dez avaliações, logo à frente do GPT-5.5, com 60,2. A Anthropic apresenta a atualização como um passo modesto e incremental, em vez de um salto geracional que o nome poderia sugerir.
Em codificação agentiva, o Opus 4.8 atinge 69,2% no SWE-bench Pro, um benchmark que pede ao modelo para corrigir bugs reais em grandes repositórios de código, enquanto o GPT-5.5 chega a 58,6%.
Os dois sistemas ficam quase empatados em questões de ciência em nível de pós-graduação, ambos próximos de 94%, e o Opus 4.8 lidera por pouco um exame amplo de raciocínio no qual seus predecessores ficaram atrás.
O Mythos fica acima de ambos no trabalho de engenharia mais difícil, registrando 77,8% no mesmo benchmark de código e uma liderança maior em tarefas que misturam código com capturas de tela. Anthropic restricts Mythos to a vetted set of partners em seu programa Project Glasswing, em vez de vendê-lo abertamente. A empresa cobra US$ 25 e US$ 125 por milhão de tokens na prévia, cinco vezes a tarifa do Opus.
Also Read: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Domínio cibernético do Mythos
A diferença mais ampla aparece em segurança ofensiva.
Com as salvaguardas desativadas, o Mythos produced um exploit totalmente funcional em 70,8% dos alvos do Firefox nas avaliações da própria Anthropic, enquanto o Opus 4.8 conseguiu apenas 8,8%.
Em um teste separado, baseado em código de código aberto, o Opus 4.8 falhou em pontuar em 61,5% dos alvos, mais que o dobro da taxa de falhas de 23,3% registrada pelo Mythos.
Um teste público entre modelos, conduzido pelo Berkeley RDI, emparelhou cada sistema com seu próprio agente de codificação em 898 vulnerabilidades reais, em que o Mythos escreveu 157 exploits funcionais contra 120 do GPT-5.5.
O GPT-5.5 ainda manteve uma vantagem em exploração em nível de kernel, liderando o Mythos por 22 a 12 nesse recorte específico. O UK AI Security Institute o colocou ligeiramente à frente do Mythos em tarefas cibernéticas de nível especialista, com 71,4% contra 68,6%.
A Anthropic apresentou o Mythos em abril, depois que o modelo found thousands of previously unknown flaws em grandes sistemas operacionais e em todos os principais navegadores, com centenas de falhas reportadas apenas no Firefox. A empresa então o reteve do lançamento público, receosa de que as mesmas habilidades de escrita de exploits pudessem ajudar invasores com a mesma facilidade que os defensores para os quais foi criado.
Read Next: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





