Anthropic annule la règle de Claude Fable 5 qui affaiblissait les résultats pour les chercheurs en IA rivaux

Anthropic revient sur une politique Claude Fable 5 qui dégradait secrètement les résultats pour les chercheurs construisant des systèmes d’IA rivaux, une restriction que l’entreprise affirme n’avoir touché que 0,03 % du trafic.

Points clés :

Anthropic a annulé une politique de Fable 5 qui affaiblissait silencieusement les réponses pour la recherche de pointe en IA.

Cette limite non divulguée était enfouie dans une carte système de 319 pages et ne déclenchait aucune notification utilisateur.

Les requêtes signalées basculeront désormais ouvertement vers Claude Opus 4.8, avec la raison indiquée à chaque fois.

Retour en arrière sur les restrictions de Claude Fable 5

L’entreprise a confirmé ce changement à Wired cette semaine, qui a été la première à rapporter ce revirement après plusieurs jours de colère croissante parmi les chercheurs, développeurs et analystes de politiques en ligne. Ce recul intervient après le lancement mardi de Fable 5, le premier modèle de classe Mythos d’Anthropic accessible au public, un système que le laboratoire avait longtemps retenu en raison de sa capacité accrue à trouver des failles logicielles. Quelques heures après sa mise en ligne, des utilisateurs ont remarqué qu’il réorientait discrètement ou affaiblissait ses réponses sur une petite tranche de travaux avancés en IA.

Ces tâches couvraient l’entraînement de modèles concurrents, le débogage de code d’IA et l’ajustement de réseaux de neurones, toutes signalées dans un paragraphe enfoui dans une carte système de 319 pages. Plutôt que de les bloquer ouvertement, Fable 5 s’appuyait sur des modifications cachées de prompts et des vecteurs de guidage pour émousser discrètement ses réponses, une restriction qu’Anthropic a estimée à seulement 0,03 % du trafic.

La correction conserve le garde-fou mais supprime le secret qui a suscité le plus de critiques. Anthropic avait défendu la version cachée en affirmant que des règles visibles sont plus faciles à sonder et à contourner. Désormais, les prompts signalés basculeront ouvertement vers Claude Opus 4.8, le même chemin emprunté pour les requêtes cyber et biologie, et l’API fournira bientôt une raison claire pour chaque refus.

Des chercheurs rejettent un sabotage secret

Les critiques visaient le secret lui‑même, et non les limites sous‑jacentes. Anthropic avait présenté cette restriction comme une extension de clauses interdisant d’utiliser Claude pour construire des systèmes rivaux, en expliquant qu’une application discrète empêchait les pires contrevenants de progresser. Dean Ball, chercheur principal à la Foundation for American Innovation, a qualifié cette tactique de « sabotage secret » et estimé qu’elle renforçait l’idée que certaines mesures de sûreté ne servent qu’à protéger les intérêts commerciaux.

L’expression s’est répandue rapidement.

D’autres se sont concentrés sur l’asymétrie intégrée à la règle elle‑même. Anthropic conservait toute la puissance de Fable 5 pour son propre personnel tout en bridant les équipes externes, une différence de traitement qui a irrité aussi bien les défenseurs de l’open source que des alliés de longue date de la sûreté. Jeremy Howard de Fast AI a déclaré que le laboratoire s’était engagé à couper l’herbe sous le pied des rivaux qui tenteraient de le concurrencer, tandis que Nathan Lambert d’AI2 a qualifié cette rétrogradation secrète de choquante et d’anti‑scientifique.

Ce conflit a conclu une première semaine éprouvante pour Fable 5, un modèle qu’Anthropic avait autrefois jugé trop risqué pour être diffusé. Il a été jugé apte à un usage public cette semaine, environ une semaine après le dépôt confidentiel de la documentation d’introduction en bourse, l’entreprise pariant sur des garde‑fous plus stricts et mieux expliqués pour maintenir ses capacités de détection de vulnérabilités entre de bonnes mains.