研究人員喺 OpenAI 表示,針對有益特質嘅強化學習可全面改善 AI 行為,呢啲提升會擴散到新領域,並且喺對抗性壓力下仍然保持。
OpenAI 特質訓練
研究結果出現喺一篇 發表 於 6 月 18 日嘅論文。文中嘅通訊作者 Akshay V. Jagadeesh 同 Karan Singhal 建立咗一個合成資料集,入面有逼真對話,目的係訓練同衡量誠實、認知謙遜,以及接受修正嘅開放性等特質。情境涵蓋健康、教育、科學、法律同工程。
團隊將少量呢類資料混入一個更大嘅訓練流程,之後將結果同用相同算力建立嘅模型比較。訓練後嘅模型喺 53 個內部同外部基準中有 44 個表現改善,呢啲基準用嚟衡量欺騙、獎勵漏洞利用同有害建議。
亦可閱讀: Elon Musk 嘅 SpaceX 在破紀錄 IPO 狂熱降溫下抹去 6000 億美元市值
可泛化嘅對齊
作者表示,更重要嘅結果係泛化能力。將模型喺單一領域(健康)訓練成良好行為後,其喺其他無關任務上嘅分數亦有所提升,包括欺騙同獎勵漏洞利用。相比基線模型,佢亦更能抵抗對抗性提示同有害微調,同時仍然可以回應正當請求。
呢項研究建基於團隊較早前所稱嘅「湧現式失配」。喺嗰項研究中,模型一旦學咗單一壞習慣,例如撰寫不安全程式碼,就會喺無關情境中開始表現不良;而今次研究就嘗試逆轉呢種模式。





