Anthropic diz que o novo Claude Opus 4.8 detecta 4 vezes mais dos próprios erros

Anthropic released Claude Opus 4.8 na quinta-feira, apresentando o modelo atualizado como mais honesto e menos propenso a inventar fatos do que a versão que substitui.

Pontos-chave:

A Anthropic lançou o Claude Opus 4.8 na quinta-feira, destacando a honestidade como seu principal ganho.

O modelo é cerca de quatro vezes menos propenso a deixar falhas de código passarem despercebidas, segundo a empresa.

O modo rápido agora roda 2,5 vezes mais rápido e custa três vezes menos do que antes.

Anthropic destaca a honestidade do Opus 4.8

A empresa unveiled o modelo na quinta-feira, apresentando-o como uma evolução constante do Opus 4.7, e não uma reinvenção, com a maioria das pontuações em benchmarks subindo apenas levemente. No teste de programação SWE-Bench Pro, ele scored 69,2%, acima dos 64,3% da versão anterior e à frente do GPT-5.5 da OpenAI, que alcançou 58,6%.

A honestidade ganhou destaque. A Anthropic diz que modelos de IA muitas vezes tiram conclusões apressadas, alegando progresso com base em evidências frágeis, e que os primeiros testadores acharam o 4.8 mais rápido em admitir dúvidas durante tarefas longas e não supervisionadas. Seus testes indicated que o modelo é cerca de quatro vezes menos propenso do que o 4.7 a deixar falhas de código passarem sem comentário.

A atualização shipped com novos controles, incluindo uma configuração que permite aos usuários ajustar o quão intensamente o modelo trabalha em uma tarefa, agora disponível em todos os planos. A Anthropic também reduziu o preço do modo rápido, em que o modelo roda a 2,5 vezes a velocidade normal, para um terço do que os modelos anteriores cobravam.

Também leia: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard elogia o julgamento do Opus 4.8

Tom Pritchard, engenheiro de equipe na Shopify, told à Anthropic que a versão focada em código mostra um julgamento muito melhor. Ele disse que o modelo “faz as perguntas certas, detecta seus próprios erros” e resiste quando um plano parece fraco. Para equipes que já sofreram com agentes de IA que apagaram bancos de dados de produção ao vivo, esse tipo de promessa pode ter um peso real.

Nem todos ficaram convencidos.

No Reddit, muitos usuários doubted dos gráficos de benchmark, resumindo o clima como ninguém confiando neles, enquanto outros temiam perder o antigo Opus 4.6, que ainda preferiam para o trabalho diário.

Opus 4.8 coroa a fase de crescimento da Anthropic

O lançamento chegou em um momento eufórico para o laboratório. A avaliação de mercado da Anthropic climbed para além da marca de quase US$ 965 bilhões da OpenAI após uma nova rodada que ficou entre as maiores do setor de tecnologia. Investidores em geral esperam que a empresa busque uma abertura de capital ainda este ano.

O lançamento também coroou uma sequência rápida de atualizações, com o Opus 4.7 reaching os usuários há pouco mais de um mês, sob sua própria nuvem de dúvida sobre benchmarks. Desde então, a Anthropic vem insinuando o Mythos, um modelo muito mais poderoso que está sendo mantido longe do público por questões de segurança cibernética.

Leia a seguir: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak