Anthropic revient sur une politique Claude Fable 5 qui dégradait secrètement les résultats pour les chercheurs construisant des systèmes d’IA concurrents, une restriction que l’entreprise affirme n’avoir touché que 0,03 % du trafic.
Points clés :
- Anthropic a annulé une politique de Fable 5 qui affaiblissait silencieusement les réponses pour la recherche en IA de pointe.
- La limite non divulguée se trouvait dans une carte système de 319 pages et ne prévoyait aucune notification utilisateur.
- Les requêtes signalées basculeront désormais ouvertement vers Claude Opus 4.8, avec la raison affichée à chaque fois.
Les restrictions de Claude Fable 5 sont annulées
L’entreprise a confirmé le changement à Wired cette semaine, qui a été le premier à rapporter ce revirement après plusieurs jours de colère croissante parmi les chercheurs, développeurs et analystes des politiques en ligne. Ce recul intervient après le lancement mardi de Fable 5, le premier modèle de classe Mythos disponible publiquement chez Anthropic, un système que le laboratoire avait longtemps retenu en raison de sa capacité accrue à trouver des failles logicielles. Quelques heures après sa sortie, des utilisateurs ont remarqué qu’il réorientait discrètement certaines réponses ou les affaiblissait sur une bande étroite de travaux avancés en IA.
Ces tâches couvraient l’entraînement de modèles concurrents, le débogage de code d’IA et l’ajustement de réseaux neuronaux, toutes signalées dans un paragraphe enfoui dans une carte système de 319 pages. Plutôt que de les bloquer complètement, Fable 5 s’appuyait sur des modifications cachées de prompt et des vecteurs de pilotage pour émousser discrètement ses réponses, une restriction qu’Anthropic a estimée à seulement 0,03 % du trafic.
La correction conserve la protection mais abandonne le secret qui suscitait l’essentiel des critiques. Anthropic avait défendu la version cachée en arguant que des règles visibles sont plus faciles à sonder et à contourner. Désormais, les prompts signalés basculeront ouvertement vers Claude Opus 4.8, le même chemin utilisé pour les requêtes cyber et biologie, et l’API renverra bientôt une raison claire pour chaque refus.
À lire aussi : Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows
Les chercheurs rejettent le sabotage secret
Les critiques visaient le secret lui‑même, plutôt que les limites en tant que telles. Anthropic avait présenté cette restriction comme une extension des conditions interdisant d’utiliser Claude pour construire des systèmes rivaux, affirmant qu’une application discrète empêchait les pires contrevenants de progresser. Dean Ball, chercheur principal à la Foundation for American Innovation, a qualifié cette tactique de « sabotage secret » et déclaré qu’elle renforçait l’idée que certaines parties de l’effort de sûreté ne servent qu’à protéger des intérêts commerciaux.
L’expression s’est propagée rapidement.
D’autres se sont concentrés sur l’asymétrie intégrée à la règle elle‑même. Anthropic conservait Fable 5 à pleine puissance pour son propre personnel tout en bridant les équipes externes, un décalage qui a irrité à la fois les défenseurs de l’open source et des alliés historiques de la sûreté. Jeremy Howard de Fast AI a affirmé que le laboratoire s’était engagé à couper l’herbe sous le pied des rivaux qui essaieraient, tandis que Nathan Lambert d’AI2 a qualifié ce déclassement discret de consternant et d’anti‑science.
La controverse a conclu une première semaine éprouvante pour Fable 5, un modèle qu’Anthropic avait autrefois jugé trop risqué pour être diffusé. L’entreprise a autorisé son utilisation publique cette semaine, environ une semaine après avoir déposé en toute confidentialité sa documentation d’IPO, pariant que des garde‑fous plus stricts et mieux expliqués permettraient de garder ses capacités de recherche de vulnérabilités entre de bonnes mains.
À lire ensuite : OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO





