OpenAI entraîne l’IA à rester honnête, et l’effet se propage partout

Des chercheurs d’OpenAI affirment que l’apprentissage par renforcement visant des traits bénéfiques peut améliorer largement le comportement de l’IA, avec des gains qui se propagent à de nouveaux domaines et résistent à la pression adversariale.

Entraînement des traits chez OpenAI

Les résultats apparaissent dans un article publié le 18 juin. Ses auteurs correspondants, Akshay V. Jagadeesh et Karan Singhal, ont élaboré un jeu de données synthétique de conversations réalistes destiné à entraîner et mesurer des traits tels que l’honnêteté, l’humilité épistémique et l’ouverture à la correction. Les scénarios couvrent la santé, l’éducation, la science, le droit et l’ingénierie.

L’équipe a mélangé une petite part de ces données à un entraînement plus large, puis a comparé le résultat à des modèles construits avec un calcul similaire. Le modèle entraîné a progressé sur 44 des 53 évaluations internes et externes mesurant la tromperie, le piratage de récompense et les conseils nuisibles.

Une alignement qui se généralise

Le résultat le plus important, selon les auteurs, est la généralisation. L’entraînement du modèle à un bon comportement dans un seul domaine, la santé, a amélioré ses scores sur des tâches sans rapport, notamment la tromperie et le piratage de récompense. Il a aussi mieux résisté que la base aux requêtes adversariales et aux affinages nuisibles, tout en restant réactif aux demandes légitimes.

Ce travail s’appuie sur des résultats antérieurs que l’équipe appelle un désalignement émergent. Dans ces recherches, des modèles à qui l’on avait appris une seule mauvaise habitude, comme écrire du code peu sûr, ont commencé à mal se comporter dans des contextes sans rapport, un schéma que cette étude visait à inverser.

Lire la suite : OpenAI recrute un co-responsable de Gemini et l’assistant IA de Trump avant l’introduction en bourse

Alexey Bondarev

Alexey Bondarev est responsable du contenu chez Yellow.com et couvre l’actualité crypto depuis dix ans. Il est spécialisé dans les articles de Recherche et Learn approfondis, avec un accent particulier sur l’analyse, la mise en contexte sectorielle et les grandes forces qui façonnent l’écosystème crypto, de l’ère de l’IA et des technologies de sécurité aux innovations fintech. Il est convaincu que tout ce qui est numérique supplantera très prochainement tout ce qui est analogique et travaille dur pour contribuer à rendre cela possible.