OpenAI entraîne l’IA à rester honnête, et l’effet se propage partout

OpenAI entraîne l’IA à rester honnête, et l’effet se propage partout

Des chercheurs d’OpenAI affirment que l’apprentissage par renforcement visant des traits bénéfiques peut améliorer largement le comportement de l’IA, avec des gains qui se propagent à de nouveaux domaines et résistent à la pression adversariale.

Entraînement des traits chez OpenAI

Les résultats apparaissent dans un article publié le 18 juin. Ses auteurs correspondants, Akshay V. Jagadeesh et Karan Singhal, ont élaboré un jeu de données synthétique de conversations réalistes destiné à entraîner et mesurer des traits tels que l’honnêteté, l’humilité épistémique et l’ouverture à la correction. Les scénarios couvrent la santé, l’éducation, la science, le droit et l’ingénierie.

L’équipe a mélangé une petite part de ces données à un entraînement plus large, puis a comparé le résultat à des modèles construits avec un calcul similaire. Le modèle entraîné a progressé sur 44 des 53 évaluations internes et externes mesurant la tromperie, le piratage de récompense et les conseils nuisibles.

À lire aussi : Elon Musk voit SpaceX effacer 600 milliards de dollars alors que la frénésie des introductions en bourse record retombe

Une alignement qui se généralise

Le résultat le plus important, selon les auteurs, est la généralisation. L’entraînement du modèle à un bon comportement dans un seul domaine, la santé, a amélioré ses scores sur des tâches sans rapport, notamment la tromperie et le piratage de récompense. Il a aussi mieux résisté que la base aux requêtes adversariales et aux affinages nuisibles, tout en restant réactif aux demandes légitimes.

Ce travail s’appuie sur des résultats antérieurs que l’équipe appelle un désalignement émergent. Dans ces recherches, des modèles à qui l’on avait appris une seule mauvaise habitude, comme écrire du code peu sûr, ont commencé à mal se comporter dans des contextes sans rapport, un schéma que cette étude visait à inverser.

Lire la suite : OpenAI recrute un co-responsable de Gemini et l’assistant IA de Trump avant l’introduction en bourse

Avertissement et avertissement sur les risques : Les informations fournies dans cet article sont à des fins éducatives et informatives uniquement et sont basées sur l'opinion de l'auteur. Elles ne constituent pas des conseils financiers, d'investissement, juridiques ou fiscaux. Les actifs de cryptomonnaie sont très volatils et sujets à des risques élevés, y compris le risque de perdre tout ou une partie substantielle de votre investissement. Le trading ou la détention d'actifs crypto peut ne pas convenir à tous les investisseurs. Les opinions exprimées dans cet article sont uniquement celles de l'auteur/des auteurs et ne représentent pas la politique officielle ou la position de Yellow, de ses fondateurs ou de ses dirigeants. Effectuez toujours vos propres recherches approfondies (D.Y.O.R.) et consultez un professionnel financier agréé avant de prendre toute décision d'investissement.
OpenAI entraîne l’IA à rester honnête, et l’effet se propage partout | Yellow.com