Anthropic diz que o novo Claude Opus 4.8 detecta 4 vezes mais dos próprios erros

Anthropic diz que o novo Claude Opus 4.8 detecta 4 vezes mais dos próprios erros

Anthropic released Claude Opus 4.8 na quinta-feira, apresentando o modelo atualizado como mais honesto e menos propenso a inventar fatos do que a versão que substitui.

Principais pontos:

  • A Anthropic lançou o Claude Opus 4.8 na quinta-feira, destacando a honestidade como seu principal avanço.
  • Segundo a empresa, o modelo é cerca de quatro vezes menos propenso a deixar passar falhas de código.
  • O modo rápido agora é 2,5 vezes mais veloz e custa três vezes menos do que antes.

Anthropic destaca a honestidade do Opus 4.8

A empresa unveiled o modelo na quinta-feira, apresentando-o como uma evolução constante do Opus 4.7, e não uma reinvenção, com a maioria dos resultados de benchmark subindo apenas ligeiramente. No teste de código SWE-Bench Pro, ele scored 69,2%, acima dos 64,3% da versão anterior e à frente do GPT-5.5 da OpenAI, que alcançou 58,6%.

A honestidade chamou a atenção. A Anthropic afirma que modelos de IA frequentemente tiram conclusões precipitadas, alegando progresso com base em evidências fracas, e que testadores iniciais acharam o 4.8 mais rápido em admitir dúvidas durante tarefas longas e sem supervisão. Seus testes indicated que o modelo é cerca de quatro vezes menos propenso do que o 4.7 a deixar passar falhas de código sem apontá-las.

A atualização shipped com novos controles, incluindo uma configuração que permite aos usuários ajustar o quanto o modelo se empenha em uma tarefa, agora disponível em todos os planos. A Anthropic também reduziu o preço do modo rápido, em que o modelo roda a 2,5 vezes a velocidade normal, para um terço do que os modelos anteriores cobravam.

Também leia: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard elogia o julgamento do Opus 4.8

Tom Pritchard, engenheiro de staff na Shopify, told à Anthropic que a versão voltada a código demonstra um julgamento muito melhor. Ele disse que o modelo “faz as perguntas certas, detecta seus próprios erros” e reage quando um plano parece fraco. Para equipes que já sofreram com agentes de IA que apagaram bancos de dados de produção em uso, esse tipo de promessa pode ter peso real.

Nem todos ficaram convencidos.

No Reddit, muitos usuários doubted dos gráficos de benchmark, resumindo o clima como ninguém confiando neles, enquanto outros temiam perder o antigo Opus 4.6, que ainda preferiam para o trabalho diário.

Opus 4.8 coroa a ascensão da Anthropic

O lançamento chegou em um momento eufórico para o laboratório. A valorização da Anthropic climbed além da marca de quase 965 bilhões de dólares da OpenAI após uma nova rodada que ficou entre as maiores do setor de tecnologia. Investidores em geral esperam que a empresa busque uma abertura de capital ainda este ano.

A versão também coroou uma rápida sequência de atualizações, com o Opus 4.7 reaching os usuários há pouco mais de um mês, sob sua própria nuvem de dúvidas sobre benchmarks. Desde então, a Anthropic vem dando pistas sobre o Mythos, um modelo muito mais poderoso que está sendo mantido afastado do público por preocupações de cibersegurança.

Leia a seguir: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak

Isenção de responsabilidade e aviso de risco: As informações fornecidas neste artigo são apenas para fins educacionais e informativos e são baseadas na opinião do autor. Elas não constituem aconselhamento financeiro, de investimento, jurídico ou tributário. Ativos de criptomoedas são altamente voláteis e sujeitos a alto risco, incluindo o risco de perder todo ou uma quantia substancial do seu investimento. Negociar ou manter ativos cripto pode não ser adequado para todos os investidores. As opiniões expressas neste artigo são exclusivamente do(s) autor(es) e não representam a política oficial ou posição da Yellow, seus fundadores ou seus executivos. Sempre conduza sua própria pesquisa minuciosa (D.Y.O.R.) e consulte um profissional financeiro licenciado antes de tomar qualquer decisão de investimento.
Anthropic diz que o novo Claude Opus 4.8 detecta 4 vezes mais dos próprios erros | Yellow.com