Anthropic diz que novo Claude Opus 4.8 detecta 4 vezes mais dos próprios erros

Anthropic diz que novo Claude Opus 4.8 detecta 4 vezes mais dos próprios erros

Anthropic released Claude Opus 4.8 na quinta‑feira, apresentando o modelo atualizado como mais honesto e menos propenso a inventar fatos do que a versão que substitui.

Pontos‑chave:

  • A Anthropic lançou o Claude Opus 4.8 na quinta‑feira, apontando a honestidade como seu principal avanço.
  • Segundo a empresa, o modelo tem cerca de quatro vezes menos chance de deixar passar falhas de código.
  • O modo rápido agora é 2,5 vezes mais veloz e custa um terço do preço anterior.

Anthropic destaca honestidade do Opus 4.8

A empresa unveiled o modelo na quinta‑feira, apresentando‑o como uma evolução constante do Opus 4.7, e não uma reinvenção, com a maioria dos resultados de benchmark subindo apenas ligeiramente. No teste de programação SWE-Bench Pro, ele scored 69,2%, acima dos 64,3% da versão anterior e à frente do GPT-5.5 da OpenAI, que alcançou 58,6%.

A honestidade foi o foco. A Anthropic diz que modelos de IA frequentemente tiram conclusões precipitadas, alegando progresso com base em evidências frágeis, e que testadores iniciais acharam o 4.8 mais rápido em admitir dúvidas durante tarefas longas e autônomas. Seus testes indicated que o modelo é cerca de quatro vezes menos propenso do que o 4.7 a deixar falhas de código passarem sem comentários.

A atualização shipped com novos controles, incluindo uma configuração que permite aos usuários ajustar o quanto o modelo se dedica a uma tarefa, agora disponível em todos os planos. A Anthropic também reduziu o preço do modo rápido, em que o modelo roda a 2,5 vezes a velocidade normal, para um terço do que os modelos anteriores cobravam.

Also Read: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard endossa o julgamento do Opus 4.8

Tom Pritchard, engenheiro de staff na Shopify, told à Anthropic que a versão voltada para código mostra um julgamento muito melhor. Ele disse que o modelo “faz as perguntas certas, detecta seus próprios erros” e reage quando um plano parece fraco. Para equipes que já sofreram com agentes de IA que apagaram bancos de dados de produção ao vivo, esse tipo de promessa pode ter peso real.

Nem todos ficaram convencidos.

No Reddit, muitos usuários doubted dos gráficos de benchmark, resumindo o clima como ninguém confiando neles, enquanto outros temiam perder o antigo Opus 4.6, que ainda preferiam para o trabalho diário.

Opus 4.8 coroa o avanço da Anthropic

O lançamento chegou em um momento de euforia para o laboratório. A valorização da Anthropic has climbed além da marca de quase 965 bilhões de dólares da OpenAI após uma nova rodada que ficou entre as maiores do setor de tecnologia. Investidores em geral esperam que a empresa busque uma abertura de capital ainda este ano.

O lançamento também coroou uma sequência rápida de upgrades, com o Opus 4.7 reaching usuários há pouco mais de um mês, sob sua própria nuvem de dúvidas sobre benchmarks. Desde então, a Anthropic vem sugerindo o Mythos, um modelo muito mais poderoso que está sendo mantido longe do público por preocupações de cibersegurança.

Read Next: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak

Disclaimer e aviso de risco: As informações fornecidas neste artigo são apenas para fins educacionais e informativos e baseiam-se na opinião do autor. Não constituem aconselhamento financeiro, de investimento, legal ou fiscal. Os ativos de criptomoeda são altamente voláteis e sujeitos a alto risco, incluindo o risco de perder todo ou uma quantia substancial do seu investimento. Negociar ou deter ativos cripto pode não ser adequado para todos os investidores. As opiniões expressas neste artigo são exclusivamente do(s) autor(es) e não representam a política oficial ou posição da Yellow, seus fundadores ou executivos. Sempre conduza a sua própria pesquisa minuciosa (D.Y.O.R.) e consulte um profissional financeiro licenciado antes de tomar qualquer decisão de investimento.
Anthropic diz que novo Claude Opus 4.8 detecta 4 vezes mais dos próprios erros | Yellow.com