Queda no Desempenho de Código do Claude Fable 5 Revela Problema no Router, Não Decaimento do Modelo

Queda no Desempenho de Código do Claude Fable 5 Revela Problema no Router, Não Decaimento do Modelo

Claude Fable 5 voltou em 1º de julho com fortes reclamações de usuários, mas os dados de benchmark apontam para um router da Anthropic mais rígido, e não para um modelo mais fraco.

Pontos-chave:

  • O BridgeBench relatou um colapso nas pontuações de código do Fable 5 depois que a maior parte das tarefas de depuração foi roteada para longe do modelo.
  • A Arena.AI encontrou resultados humanos cegos de preferência em grande parte estáveis, com ganhos em categorias de documento e texto especializado.
  • Desenvolvedores enfrentam a interrupção mais clara porque prompts rotineiros de depuração podem acionar o novo classificador.

Roteamento do Fable 5

Claude Fable 5 voltou ao ar em 1º de julho após sua reintegração, e usuários no X rapidamente o descreveram como quebrado, nerfado ou menos capaz do que antes. A evidência mais forte para essa visão veio da BridgeMind, que refez sua suíte de código BridgeBench contra a versão reintegrada.

Os resultados pareceram severos. A depuração caiu de 86,2 para 25,9, a refatoração caiu de 73,6 para 38,4 e a resistência a alucinações diminuiu de 75,9 para 61,7.

Esses números não mostram um colapso claro em nível de modelo porque o BridgeBench disse que apenas três das 12 tarefas de depuração em TypeScript realmente chegaram ao Fable 5. As outras nove foram interceptadas pelo novo classificador de segurança da Anthropic e enviadas para o Claude Opus 4.8, com cada fallback pontuado como zero porque o modelo avaliado não respondeu.

Também leia: Mistério dos 491 BTC da Strategy reacende debate sobre política de vendas de Saylor

Classificador da Anthropic

A Arena.AI chegou a uma conclusão diferente porque mediu preferências humanas cegas em uma mistura mais ampla de prompts, incluindo tarefas de texto, visão, documento, código e agentes. Seus primeiros dados mostraram o Fable 5 se mantendo em grande parte estável em relação à versão de junho.

O código de frontend caiu de 1650 para 1623 de Elo, o que a Arena disse permanecer dentro do intervalo de confiança enquanto os votos se acumulavam. O desempenho em documentos subiu 34 pontos, o texto especializado ganhou 25 pontos e a escrita criativa aumentou em 9 pontos.

A divisão sugere que o Fable 5 ainda funciona como Fable 5 quando os prompts chegam até ele. O problema é que trabalhos de código próximos a segurança podem ser desviados antes que o modelo responda, especialmente quando os prompts contêm termos como vulnerabilidade, exploit, hook ou fix.

A Anthropic reconheceu que os novos classificadores vão gerar falsos positivos em trabalhos comuns de código e depuração. A empresa disse que vai refinar o sistema ao longo do tempo, mas não deu uma data-alvo.

A configuração atual segue uma disputa de segurança mais ampla depois que pesquisadores da Amazon relataram um jailbreak que levou o Fable 5 a identificar e demonstrar vulnerabilidades de software. A resposta da Anthropic foi um classificador conservador, que agora parece bloquear mais do que os prompts perigosos que foi projetado para capturar.

Leia a seguir: Trump diz que não sabia sobre US$ 1,4 bi de renda em cripto

Isenção de responsabilidade e aviso de risco: As informações fornecidas neste artigo são apenas para fins educacionais e informativos e são baseadas na opinião do autor. Elas não constituem aconselhamento financeiro, de investimento, jurídico ou tributário. Ativos de criptomoedas são altamente voláteis e sujeitos a alto risco, incluindo o risco de perder todo ou uma quantia substancial do seu investimento. Negociar ou manter ativos cripto pode não ser adequado para todos os investidores. As opiniões expressas neste artigo são exclusivamente do(s) autor(es) e não representam a política oficial ou posição da Yellow, seus fundadores ou seus executivos. Sempre conduza sua própria pesquisa minuciosa (D.Y.O.R.) e consulte um profissional financeiro licenciado antes de tomar qualquer decisão de investimento.
Queda no Desempenho de Código do Claude Fable 5 Revela Problema no Router, Não Decaimento do Modelo | Yellow.com