Anthropic diz que o novo Claude Opus 4.8 detecta 4 vezes mais dos próprios erros

Anthropic diz que o novo Claude Opus 4.8 detecta 4 vezes mais dos próprios erros

Anthropic released Claude Opus 4.8 na quinta‑feira, apresentando o modelo atualizado como mais honesto e menos propenso a inventar fatos do que a versão que substitui.

Principais pontos:

  • A Anthropic lançou o Claude Opus 4.8 na quinta‑feira, destacando a honestidade como seu maior ganho.
  • Segundo a empresa, o modelo é aproximadamente quatro vezes menos propenso a deixar passar falhas de código.
  • O modo rápido agora roda 2,5 vezes mais rápido e custa três vezes menos do que antes.

Anthropic destaca a honestidade do Opus 4.8

A empresa unveiled o modelo na quinta‑feira, apresentando‑o como uma evolução gradual do Opus 4.7 em vez de uma reinvenção, com a maioria das pontuações de benchmark subindo apenas levemente. No teste de programação SWE-Bench Pro, ele scored 69,2%, acima dos 64,3% da versão anterior e à frente do GPT-5.5 da OpenAI, que alcançou 58,6%.

A honestidade ganhou destaque. A Anthropic afirma que modelos de IA muitas vezes chegam a conclusões precipitadas, alegando progresso com base em evidências frágeis, e que testadores iniciais acharam o 4.8 mais rápido em admitir dúvidas durante tarefas longas e não supervisionadas. Seus testes indicated que o modelo é cerca de quatro vezes menos propenso que o 4.7 a deixar falhas de código passarem sem comentário.

A atualização shipped com novos controles, incluindo uma configuração que permite aos usuários ajustar o quanto o modelo se empenha em uma tarefa, agora disponível em todos os planos. A Anthropic também reduziu o preço do modo rápido, em que o modelo roda a 2,5 vezes a velocidade normal, para um terço do que os modelos anteriores cobravam.

Also Read: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard elogia o julgamento do Opus 4.8

Tom Pritchard, engenheiro de staff na Shopify, told à Anthropic que a versão voltada para código demonstra um julgamento muito melhor. Ele disse que o modelo “faz as perguntas certas, detecta seus próprios erros” e reage quando um plano parece fraco. Para equipes que já sofreram com agentes de IA que apagaram bancos de dados de produção em uso, esse tipo de promessa pode ter peso real.

Nem todos ficaram convencidos.

No Reddit, muitos usuários doubted dos gráficos de benchmark, resumindo o clima como ninguém confiando neles, enquanto outros temiam perder o antigo Opus 4.6, que ainda preferiam para o trabalho diário.

Opus 4.8 coroa a arrancada da Anthropic

O lançamento chegou em um momento forte para o laboratório. A valuation da Anthropic climbed além da marca de quase US$ 965 bilhões da OpenAI após uma nova rodada que figurou entre as maiores do setor de tecnologia. Investidores esperam amplamente que a empresa busque uma abertura de capital ainda este ano.

A versão também coroou uma sequência rápida de melhorias, com o Opus 4.7 reaching usuários há pouco mais de um mês, sob sua própria nuvem de dúvidas sobre benchmarks. Desde então, a Anthropic vem sugerindo o Mythos, um modelo muito mais poderoso que está sendo mantido longe do público por preocupações de cibersegurança.

Read Next: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak

Disclaimer e aviso de risco: As informações fornecidas neste artigo são apenas para fins educacionais e informativos e baseiam-se na opinião do autor. Não constituem aconselhamento financeiro, de investimento, legal ou fiscal. Os ativos de criptomoeda são altamente voláteis e sujeitos a alto risco, incluindo o risco de perder todo ou uma quantia substancial do seu investimento. Negociar ou deter ativos cripto pode não ser adequado para todos os investidores. As opiniões expressas neste artigo são exclusivamente do(s) autor(es) e não representam a política oficial ou posição da Yellow, seus fundadores ou executivos. Sempre conduza a sua própria pesquisa minuciosa (D.Y.O.R.) e consulte um profissional financeiro licenciado antes de tomar qualquer decisão de investimento.
Últimas Notícias
Mostrar Todas as Notícias
Anthropic diz que o novo Claude Opus 4.8 detecta 4 vezes mais dos próprios erros | Yellow.com