Anthropic released its newest model, Claude Opus 4.8, nesta semana com uma pequena vantagem em um benchmark de inteligência, mas ainda atrás do sistema restrito Mythos na escrita de exploits de software.
Pontos-chave:
- Claude Opus 4.8 lidera por pouco o Artificial Analysis Intelligence Index com 61,4, logo à frente do GPT-5.5, com 60,2.
- Nos testes internos da Anthropic, o Mythos produziu exploits funcionais para o Firefox em 70,8% dos alvos, contra 8,8% para o Opus 4.8.
- O Mythos continua limitado a parceiros avaliados do Project Glasswing, enquanto o Opus 4.8 é lançado ao mesmo preço de seu predecessor.
Vantagem do Opus 4.8 em benchmarks
A empresa lançou o Opus 4.8 nesta semana e o precificou em US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída, mantendo a mesma taxa do Opus 4.7 anterior.
Testadores independentes relatam que o modelo agora lidera o Artificial Analysis Intelligence Index com 61,4, uma média de dez avaliações, ligeiramente à frente do GPT-5.5, com 60,2. A Anthropic apresenta a atualização como um passo modesto e incremental, em vez de o salto geracional que o nome poderia sugerir.
Em programação agentiva, o Opus 4.8 marca 69,2% no SWE-bench Pro, um benchmark que pede ao modelo para corrigir bugs reais em grandes repositórios de código, enquanto o GPT-5.5 alcança 58,6%.
Os dois sistemas ficam praticamente empatados em questões de ciências em nível de pós-graduação, ambos próximos de 94%, e o Opus 4.8 lidera por pouco um amplo exame de raciocínio em que seus predecessores ficavam para trás.
O Mythos fica acima de ambos nos trabalhos de engenharia mais difíceis, registrando 77,8% nesse mesmo benchmark de programação e uma vantagem maior em tarefas que misturam código com capturas de tela. Anthropic restricts Mythos to a vetted set of partners sob seu programa Project Glasswing, em vez de vendê‑lo abertamente. Ela cobra US$ 25 e US$ 125 por milhão de tokens na prévia, cinco vezes a tarifa do Opus.
Também leia: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Domínio cibernético do Mythos
A maior diferença aparece na segurança ofensiva.
Com as salvaguardas desativadas, o Mythos produced um exploit totalmente funcional em 70,8% dos alvos do Firefox nas avaliações da própria Anthropic, enquanto o Opus 4.8 atingiu apenas 8,8%.
Em um teste separado, baseado em código aberto, o Opus 4.8 não conseguiu pontuar em 61,5% dos alvos, mais que o dobro da taxa de falhas de 23,3% registrada pelo Mythos.
Um teste público entre modelos, conduzido pelo Berkeley RDI, emparelhou cada sistema com seu próprio agente de programação em 898 vulnerabilidades do mundo real, em que o Mythos escreveu 157 exploits funcionais contra 120 do GPT-5.5.
O GPT-5.5 ainda manteve uma vantagem em exploração de kernel, liderando o Mythos por 22 a 12 nesse recorte específico. O UK AI Security Institute o colocou ligeiramente à frente do Mythos em tarefas cibernéticas de nível especialista, com 71,4% contra 68,6%.
A Anthropic revelou o Mythos em abril, depois que o modelo found thousands of previously unknown flaws em grandes sistemas operacionais e em todos os principais navegadores, com centenas reportadas apenas no Firefox. A empresa então o reteve de um lançamento público, receosa de que as mesmas capacidades de escrever exploits pudessem ajudar atacantes tão facilmente quanto os defensores que ele foi projetado para apoiar.
Read Next: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





