OpenAI 訓練 AI 保持誠實,效應擴散至各處

OpenAI 訓練 AI 保持誠實,效應擴散至各處

OpenAI 研究人員表示,針對有益特質進行的強化學習,能廣泛改善 AI 行為,這些提升可延伸到新領域,並在對抗性壓力下維持不變。

OpenAI 特質訓練

這項研究結果出現在一篇於 6 月 18 日 發布 的論文中。其通訊作者 Akshay V. JagadeeshKaran Singhal 建立了一組模擬真實對話的合成資料集,用來訓練與衡量誠實、認知謙遜,以及接受修正的開放性等特質。這些情境涵蓋醫療、教育、科學、法律與工程。

團隊將少量這類資料混入更大的訓練流程中,接著將結果與在相同運算量下建立的模型比較。經訓練的模型在 53 個衡量欺瞞、獎勵黑客行為與有害建議的內部與外部基準中,有 44 個表現提升。

另請閱讀: 伊隆・馬斯克的 SpaceX 蒸發 6000 億美元,創紀錄 IPO 狂熱降溫

可泛化的對齊

作者表示,更大的成果在於泛化。針對單一領域——醫療——訓練模型展現良好行為後,它在不相關任務上的分數也提升了,包括欺瞞與獎勵黑客行為。相較於基準模型,它也更能抵抗對抗性提示與有害微調,同時仍能回應正當請求。

這項工作建立在團隊先前稱為「湧現式失對齊」的發現之上。在那項研究中,模型被教會單一壞習慣,例如撰寫不安全程式碼後,會在不相關情境中也開始表現不良;本研究則試圖逆轉這種模式。

延伸閱讀: OpenAI 於上市前挖角 Gemini 共同負責人與川普的 AI 顧問

免責聲明與風險警告: 本文提供的資訊僅供教育與參考用途,並基於作者觀點,不構成財務、投資、法律或稅務建議。 加密貨幣資產具有高度波動性並伴隨高風險,包括可能損失全部或大部分投資金額。買賣或持有加密資產可能並不適合所有投資者。 本文中所表達的觀點僅代表作者立場,不代表 Yellow、其創辦人或管理層的官方政策或意見。 請務必自行進行充分研究(D.Y.O.R.),並在做出任何投資決策前諮詢持牌金融專業人士。
OpenAI 訓練 AI 保持誠實,效應擴散至各處 | Yellow.com