Claude Opus 4.8 supera Gemini e GPT em múltimos testes de programação

Anthropic lançou o Claude Opus 4.8, afirmando que o modelo atualizado supera o GPT-5.5 da OpenAI e o Gemini 3.1 Pro da Google em vários benchmarks de programação.

Pontos-chave:

A Anthropic lançou o Claude Opus 4.8 em 28 de maio, com preço alinhado à versão 4.7 anterior.

A empresa diz que supera o GPT-5.5 da OpenAI e o Gemini 3.1 Pro do Google no SWE-Bench Pro e em outros testes.

Um modo rápido reformulado e fluxos de trabalho dinâmicos visam reduzir o custo e o tempo do trabalho agentivo.

Claude Opus 4.8 lidera benchmarks de programação

A empresa apresentou o modelo na quinta-feira, aprimorando a versão Opus 4.7 lançada cerca de seis semanas antes. A Anthropic afirmou que o Opus 4.8 alcançou 69,2% no teste de programação SWE-Bench Pro, superando ambos os rivais nesse teste e ficando à frente em várias outras métricas. A empresa também relatou ganhos em uso de computador, trabalho de conhecimento e análise financeira, além de uma marca de 74,2% no benchmark Terminal-Bench 2.1.

A Anthropic enquadrou o lançamento como o de um modelo mais honesto, afirmando que avaliadores constataram que ele sinaliza sua própria incerteza e evita fazer afirmações sem apoio. Revisões internas indicam que ele é cerca de quatro vezes menos propenso que o Opus 4.7 a deixar escapar falhas de programação, e a empresa diz que ele tem pontuações mais altas em respeito à autonomia do usuário.

Por que os controles de custo da Anthropic importam

Os preços permaneceram em US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída. Um modo rápido reformulado agora é cerca de 150% mais veloz e custa três vezes menos do que a configuração anterior. A Anthropic também abriu uma prévia de pesquisa de fluxos de trabalho dinâmicos, que iniciam centenas de subagentes paralelos para migrações que abrangem centenas de milhares de linhas de código.

Mesmo assim, os ganhos continuam sendo incrementais.

O GPT-5.5 ainda lidera em um teste de programação em terminal, e a própria Anthropic descreveu o modelo como um passo modesto, e não uma grande ruptura. Os desenvolvedores agora podem revisar as instruções do Claude no meio de uma tarefa por meio da API de Messages. Compradores em busca de IA mais barata podem valorizar esses controles de gastos mais do que as margens estreitas entre os modelos de ponta.

Avaliação da Anthropic e contexto do Mythos

O lançamento ocorreu no mesmo dia em que a Anthropic confirmou uma rodada Série H de US$ 65 bilhões, com valuation de US$ 965 bilhões. Essa captação, liderada pela Altimeter Capital, Dragoneer, Greenoaks e Sequoia Capital, colocou a empresa de cinco anos à frente dos supostos US$ 850 bilhões da OpenAI e elevou a receita anual para perto de US$ 47 bilhões.

O valuation quase triplicou em relação aos US$ 380 bilhões de fevereiro, no que pode ser a última captação privada da Anthropic antes de uma abertura de capital. A empresa tem mantido em reserva seu modelo mais poderoso, o Mythos, criado para trabalho em cibersegurança, liberando-o apenas para um pequeno grupo de organizações por questões de segurança. Agora, espera ampliar o acesso a sistemas da classe Mythos para todos os clientes nas próximas semanas.

Leia a seguir: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks