Queda de desempenho em código do Claude Fable 5 revela problema de roteador, não decadência do modelo

Queda de desempenho em código do Claude Fable 5 revela problema de roteador, não decadência do modelo

Claude Fable 5 voltou em 1º de jul. com fortes queixas dos usuários, mas os dados de benchmark apontam para um roteador mais rígido da Anthropic, e não para um modelo mais fraco.

Pontos-chave:

  • O BridgeBench relatou um colapso nas pontuações de código do Fable 5 depois que a maioria das tarefas de depuração foi roteada para fora do modelo.
  • A Arena.AI encontrou resultados humanos-cegos de preferência em geral estáveis, com ganhos em categorias de documentos e texto especializado.
  • Desenvolvedores enfrentam a interrupção mais clara porque prompts rotineiros de depuração podem acionar o novo classificador.

Roteamento do Fable 5

O Claude Fable 5 voltou ao ar em 1º de jul. após sua reintegração, e usuários no X rapidamente o descreveram como quebrado, nerfado ou menos capaz do que antes. A evidência mais forte para essa visão veio da BridgeMind, que voltou a executar sua suíte de código BridgeBench contra a versão reintegrada.

Os resultados pareciam severos. A depuração caiu de 86,2 para 25,9, a refatoração caiu de 73,6 para 38,4, e a resistência a alucinações caiu de 75,9 para 61,7.

Esses números não mostram um colapso nítido em nível de modelo porque o BridgeBench afirmou que apenas três das 12 tarefas de depuração em TypeScript realmente chegaram ao Fable 5. As outras nove foram interceptadas pelo novo classificador de segurança da Anthropic e enviadas para o Claude Opus 4.8, com cada fallback pontuado como zero porque o modelo avaliado não respondeu.

Leia também: Mistério dos 491 BTC da Strategy reacende debate sobre política de venda de Saylor

Classificador da Anthropic

A Arena.AI chegou a uma conclusão diferente porque mediu preferências humanas cegas em uma mistura mais ampla de prompts, incluindo tarefas de texto, visão, documentos, código e agentes. Seus primeiros dados mostraram o Fable 5 mantendo-se em grande parte estável em relação à versão de junho.

O código de frontend caiu de 1650 para 1623 de Elo, o que a Arena disse continuar dentro do intervalo de confiança enquanto os votos se acumulavam. O desempenho em documentos subiu 34 pontos, o texto especializado ganhou 25 pontos e a escrita criativa aumentou em 9 pontos.

A divisão sugere que o Fable 5 ainda se comporta como Fable 5 quando os prompts chegam até ele. O problema é que trabalho de código próximo de segurança pode ser desviado antes de o modelo responder, especialmente quando os prompts contêm termos como vulnerabilidade, exploração, hook ou correção.

A Anthropic reconheceu que os novos classificadores vão gerar falsos positivos em trabalhos comuns de código e depuração. A empresa afirmou que vai refinar o sistema ao longo do tempo, mas não deu uma data-alvo.

A configuração atual segue uma disputa mais ampla de segurança depois que pesquisadores da Amazon relataram um jailbreak que levou o Fable 5 a identificar e demonstrar vulnerabilidades de software. A resposta da Anthropic foi um classificador conservador, que agora parece bloquear mais do que apenas os prompts perigosos que ele foi projetado para captar.

Leia a seguir: Trump diz que não sabia sobre renda cripto de US$ 1,4 bi

Disclaimer e aviso de risco: As informações fornecidas neste artigo são apenas para fins educacionais e informativos e baseiam-se na opinião do autor. Não constituem aconselhamento financeiro, de investimento, legal ou fiscal. Os ativos de criptomoeda são altamente voláteis e sujeitos a alto risco, incluindo o risco de perder todo ou uma quantia substancial do seu investimento. Negociar ou deter ativos cripto pode não ser adequado para todos os investidores. As opiniões expressas neste artigo são exclusivamente do(s) autor(es) e não representam a política oficial ou posição da Yellow, seus fundadores ou executivos. Sempre conduza a sua própria pesquisa minuciosa (D.Y.O.R.) e consulte um profissional financeiro licenciado antes de tomar qualquer decisão de investimento.
Queda de desempenho em código do Claude Fable 5 revela problema de roteador, não decadência do modelo | Yellow.com