La baisse de performance de Claude Fable 5 en programmation révèle un problème de routeur, pas une dégradation du modèle

Claude Fable 5 est revenu le 1er juillet avec de vives plaintes d’utilisateurs, mais les données de benchmark pointent vers un routeur Anthropic plus strict plutôt qu’un modèle affaibli.

Points clés :

BridgeBench a signalé un effondrement des scores de programmation de Fable 5 après que la plupart des tâches de débogage ont été routées ailleurs que vers le modèle.

Arena.AI a constaté des résultats humains à l’aveugle globalement stables, avec des gains dans les catégories de documents et de texte expert.

Les développeurs subissent la perturbation la plus nette, car les invites de débogage de routine peuvent déclencher le nouveau classificateur.

Routage de Fable 5

Claude Fable 5 est revenu en ligne le 1er juillet après sa réintégration, et les utilisateurs sur X l’ont rapidement décrit comme cassé, nerfé ou moins capable qu’auparavant. La preuve la plus forte à l’appui de ce point de vue est venue de BridgeMind, qui a relancé sa suite de tests de programmation BridgeBench contre la version rétablie.

Les résultats semblaient sévères. Le débogage est passé de 86,2 à 25,9, le refactoring est tombé de 73,6 à 38,4, et la résistance aux hallucinations a reculé de 75,9 à 61,7.

Ces chiffres ne montrent pas un effondrement net au niveau du modèle, car BridgeBench a indiqué que seulement trois des 12 tâches de débogage TypeScript ont réellement atteint Fable 5. Les neuf autres ont été interceptées par le nouveau classificateur de sécurité d’Anthropic et envoyées vers Claude Opus 4.8, chaque repli étant noté zéro parce que le modèle évalué ne répondait pas.

Classificateur d’Anthropic

Arena.AI est parvenu à une conclusion différente, car la plateforme a mesuré les préférences humaines à l’aveugle sur un éventail plus large d’invites, incluant texte, vision, documents, code et tâches d’agent. Ses premières données ont montré que Fable 5 restait globalement stable par rapport à la version de juin.

Le code frontend a glissé de 1650 à 1623 Elo, ce qui, selon Arena, restait dans l’intervalle de confiance tant que les votes continuaient de s’accumuler. Les performances sur les documents ont augmenté de 34 points, le texte expert a gagné 25 points et l’écriture créative a progressé de 9 points.

Cette divergence suggère que Fable 5 se comporte toujours comme Fable 5 lorsque les invites l’atteignent. Le problème est que le travail de programmation lié à la sécurité peut être détourné avant que le modèle ne réponde, en particulier lorsque les invites contiennent des termes comme vulnérabilité, exploit, hook ou correctif.

Anthropic a reconnu que les nouveaux classificateurs généreront des faux positifs sur le travail de programmation et de débogage ordinaire. L’entreprise a indiqué qu’elle affinera le système au fil du temps, mais n’a pas donné de date cible.

La configuration actuelle s’inscrit dans un conflit plus large autour de la sécurité, après que des chercheurs d’Amazon ont signalé un jailbreak qui poussait Fable 5 à identifier et démontrer des vulnérabilités logicielles. La réponse d’Anthropic a été un classificateur conservateur, qui semble désormais bloquer plus que les invites dangereuses qu’il était censé intercepter.