OpenAI 研究人員表示,針對有益特質進行的強化學習,能廣泛改善 AI 行為,這些提升可延伸到新領域,並在對抗性壓力下維持不變。
OpenAI 特質訓練
這項研究結果出現在一篇於 6 月 18 日 發布 的論文中。其通訊作者 Akshay V. Jagadeesh 與 Karan Singhal 建立了一組模擬真實對話的合成資料集,用來訓練與衡量誠實、認知謙遜,以及接受修正的開放性等特質。這些情境涵蓋醫療、教育、科學、法律與工程。
團隊將少量這類資料混入更大的訓練流程中,接著將結果與在相同運算量下建立的模型比較。經訓練的模型在 53 個衡量欺瞞、獎勵黑客行為與有害建議的內部與外部基準中,有 44 個表現提升。
另請閱讀: 伊隆・馬斯克的 SpaceX 蒸發 6000 億美元,創紀錄 IPO 狂熱降溫
可泛化的對齊
作者表示,更大的成果在於泛化。針對單一領域——醫療——訓練模型展現良好行為後,它在不相關任務上的分數也提升了,包括欺瞞與獎勵黑客行為。相較於基準模型,它也更能抵抗對抗性提示與有害微調,同時仍能回應正當請求。
這項工作建立在團隊先前稱為「湧現式失對齊」的發現之上。在那項研究中,模型被教會單一壞習慣,例如撰寫不安全程式碼後,會在不相關情境中也開始表現不良;本研究則試圖逆轉這種模式。





