Claude Fable 5 est revenu le 1er juillet avec de vives plaintes d’utilisateurs, mais les données de benchmark pointent vers un routeur Anthropic plus strict plutôt qu’un modèle affaibli.
Points clés :
- BridgeBench a signalé un effondrement des scores de programmation de Fable 5 après que la plupart des tâches de débogage ont été routées hors du modèle.
- Arena.AI a trouvé des résultats globalement stables en préférences humaines à l’aveugle, avec des gains sur les textes de documents et d’experts.
- Les développeurs subissent la perturbation la plus nette, car des invites de débogage courantes peuvent déclencher le nouveau classifieur.
Routage de Fable 5
Claude Fable 5 est revenu en ligne le 1er juillet après sa réintégration, et des utilisateurs sur X l’ont rapidement décrit comme cassé, bridé ou moins capable qu’auparavant. Les éléments les plus solides en faveur de cette idée provenaient de BridgeMind, qui a relancé sa suite de tests de programmation BridgeBench sur la version rétablie.
Les résultats semblaient sévères. Le débogage est passé de 86,2 à 25,9, le refactoring est tombé de 73,6 à 38,4, et la résistance aux hallucinations a baissé de 75,9 à 61,7.
Ces chiffres ne montrent pas un effondrement net au niveau du modèle, car BridgeBench a indiqué que seulement trois des douze tâches de débogage TypeScript ont réellement atteint Fable 5. Les neuf autres ont été interceptées par le nouveau classifieur de sécurité d’Anthropic et envoyées à Claude Opus 4.8, chaque bascule étant notée zéro parce que le modèle évalué n’a pas répondu.
À lire aussi : Le mystère des 491 BTC de Strategy relance le débat sur la politique de ventes de Saylor
Classifieur d’Anthropic
Arena.AI est arrivé à une autre conclusion, car la plateforme a mesuré les préférences humaines à l’aveugle sur un éventail plus large d’invites, incluant texte, vision, document, code et tâches d’agent. Ses premières données montraient que Fable 5 restait globalement stable par rapport à la version de juin.
Le code frontend a glissé de 1650 à 1623 Elo, ce qui, selon Arena, restait dans l’intervalle de confiance pendant que les votes s’accumulaient. Les performances sur les documents ont augmenté de 34 points, les textes d’experts ont gagné 25 points et l’écriture créative a progressé de 9 points.
Cette divergence suggère que Fable 5 se comporte toujours comme Fable 5 lorsque les invites lui parviennent. Le problème est que les travaux de programmation liés à la sécurité peuvent être détournés avant que le modèle ne réponde, surtout lorsque les invites contiennent des termes comme vulnérabilité, exploit, hook ou correctif.
Anthropic a reconnu que les nouveaux classifieurs génèreront de faux positifs sur des tâches de programmation et de débogage ordinaires. L’entreprise a indiqué qu’elle affinera le système au fil du temps, mais elle n’a donné aucune date cible.
La configuration actuelle fait suite à un débat plus large sur la sécurité, après que des chercheurs d’Amazon ont signalé un jailbreak qui poussait Fable 5 à identifier et démontrer des vulnérabilités logicielles. La réponse d’Anthropic a été un classifieur conservateur, qui semble désormais bloquer plus que les invites dangereuses qu’il était censé détecter.
À lire ensuite : Trump affirme qu’il ne savait pas pour 1,4 milliard de dollars de revenus crypto





