Des chercheurs d’OpenAI affirment que l’apprentissage par renforcement visant des traits bénéfiques peut améliorer largement le comportement de l’IA, avec des gains qui se propagent à de nouveaux domaines et résistent à la pression adversariale.
Entraînement des traits chez OpenAI
Les résultats apparaissent dans un article publié le 18 juin. Ses auteurs correspondants, Akshay V. Jagadeesh et Karan Singhal, ont élaboré un jeu de données synthétique de conversations réalistes destiné à entraîner et mesurer des traits tels que l’honnêteté, l’humilité épistémique et l’ouverture à la correction. Les scénarios couvrent la santé, l’éducation, la science, le droit et l’ingénierie.
L’équipe a mélangé une petite part de ces données à un entraînement plus large, puis a comparé le résultat à des modèles construits avec un calcul similaire. Le modèle entraîné a progressé sur 44 des 53 évaluations internes et externes mesurant la tromperie, le piratage de récompense et les conseils nuisibles.
À lire aussi : Elon Musk voit SpaceX effacer 600 milliards de dollars alors que la frénésie des introductions en bourse record retombe
Une alignement qui se généralise
Le résultat le plus important, selon les auteurs, est la généralisation. L’entraînement du modèle à un bon comportement dans un seul domaine, la santé, a amélioré ses scores sur des tâches sans rapport, notamment la tromperie et le piratage de récompense. Il a aussi mieux résisté que la base aux requêtes adversariales et aux affinages nuisibles, tout en restant réactif aux demandes légitimes.
Ce travail s’appuie sur des résultats antérieurs que l’équipe appelle un désalignement émergent. Dans ces recherches, des modèles à qui l’on avait appris une seule mauvaise habitude, comme écrire du code peu sûr, ont commencé à mal se comporter dans des contextes sans rapport, un schéma que cette étude visait à inverser.
Lire la suite : OpenAI recrute un co-responsable de Gemini et l’assistant IA de Trump avant l’introduction en bourse





