Claude Opus 4.8 supera Gemini e GPT em vários testes de código

Anthropic lançou o Claude Opus 4.8, afirmando que o modelo atualizado supera o GPT-5.5 da OpenAI e o Gemini 3.1 Pro da Google em vários benchmarks de programação.

Pontos principais:

A Anthropic lançou o Claude Opus 4.8 em 28 de maio, com o mesmo preço da versão 4.7 anterior.

A empresa afirma que ele supera o GPT-5.5 da OpenAI e o Gemini 3.1 Pro do Google no SWE-Bench Pro e em outros testes.

Um modo rápido reformulado e fluxos de trabalho dinâmicos buscam reduzir o custo e o tempo do trabalho agentivo.

Claude Opus 4.8 lidera benchmarks de programação

A empresa revelou o modelo na quinta-feira, ampliando a versão Opus 4.7 lançada cerca de seis semanas antes. A Anthropic informou que o Opus 4.8 marcou 69,2% no teste de programação SWE-Bench Pro, superando ambos os rivais nesse benchmark e ficando à frente deles em várias outras métricas. A empresa também relatou ganhos em uso de computador, trabalho de conhecimento e análise financeira, além de uma marca de 74,2% no benchmark Terminal-Bench 2.1.

A Anthropic apresentou o lançamento como um modelo mais honesto, dizendo que avaliadores constataram que ele indica quando está incerto e evita fazer afirmações sem suporte. Revisões internas o classificam como cerca de quatro vezes menos propenso do que o Opus 4.7 a deixar passar falhas de código, e a empresa afirma que ele obtém pontuações mais altas em respeito à autonomia do usuário.

Também leia: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High

Por que os controles de custo da Anthropic importam

Os preços permaneceram em US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída. Um modo rápido reformulado agora funciona cerca de 150% mais rápido e custa três vezes menos do que a configuração anterior. A Anthropic também abriu uma prévia de pesquisa de fluxos de trabalho dinâmicos, que criam centenas de subagentes paralelos para migrações que abrangem centenas de milhares de linhas de código.

Mesmo assim, os ganhos continuam incrementais.

O GPT-5.5 ainda lidera em um teste de programação em terminal, e a própria Anthropic chamou o modelo de um passo modesto, não um avanço revolucionário. Desenvolvedores agora podem revisar as instruções do Claude no meio da tarefa por meio da API de Messages. Clientes em busca de IA mais barata podem valorizar mais esses controles de gasto do que as pequenas diferenças entre os modelos de ponta.

Avaliação da Anthropic e contexto do Mythos

O lançamento aconteceu no mesmo dia em que a Anthropic confirmou uma rodada Série H de US$ 65 bilhões, avaliando a empresa em US$ 965 bilhões. Essa captação, liderada por Altimeter Capital, Dragoneer, Greenoaks e Sequoia Capital, levou a empresa de cinco anos a ultrapassar os supostos US$ 850 bilhões da OpenAI e elevou a receita anual para perto de US$ 47 bilhões.

A avaliação quase triplicou em relação aos US$ 380 bilhões de fevereiro, no que pode ser a última captação privada da Anthropic antes de uma oferta pública de ações. A empresa tem mantido em sigilo seu modelo mais poderoso, o Mythos, criado para trabalhos de cibersegurança, liberando-o apenas para um pequeno grupo de organizações por questões de segurança. Agora, espera ampliar o acesso a sistemas da classe Mythos para todos os clientes nas próximas semanas.