OpenAIの研究者らは、有益な特性を目指した強化学習がAIの挙動を広く改善し、その効果は新しい領域にも波及し、敵対的な圧力の下でも維持されると述べている。
OpenAIの特性学習
この知見は、6月18日に公開された論文に示されている。共著者のAkshay V. Jagadeesh氏とKaran Singhal氏は、誠実さ、認識的謙虚さ、訂正への開放性といった特性を学習・評価するための、現実的な会話を用いた合成データセットを構築した。シナリオは医療、教育、科学、法律、工学にまたがっている。
チームはそのデータの一部をより広範な学習実行に混ぜ込み、その結果を同等の計算資源で作られたモデルと比較した。学習済みモデルは、欺瞞、報酬ハッキング、有害な助言を測る53の内部・外部ベンチマークのうち44で改善した。
あわせて読む: イーロン・マスクのSpaceX、記録的IPO熱の冷え込みで6000億ドルを失う
一般化するアライメント
著者らによれば、より重要なのは一般化だという。医療という単一領域で良い振る舞いをするようモデルを学習させると、欺瞞や報酬ハッキングを含む無関係な課題でのスコアも向上した。また、妥当な要求には応答性を保ちながら、敵対的プロンプトや有害なファインチューニングに対しても、ベースラインより強い耐性を示した。
この研究は、チームが「創発的な不整合」と呼ぶ以前の発見を土台にしている。その研究では、安全でないコードを書くといった一つの悪い習慣を教えられたモデルが、無関係な場面でも不適切に振る舞い始めた。本研究は、その流れを逆転させることを目指した。





