OpenAI 訓練 AI 保持誠實,而效果擴散到各處

OpenAI 訓練 AI 保持誠實,而效果擴散到各處

研究人員喺 OpenAI 表示,針對有益特質嘅強化學習可全面改善 AI 行為,呢啲提升會擴散到新領域,並且喺對抗性壓力下仍然保持。

OpenAI 特質訓練

研究結果出現喺一篇 發表 於 6 月 18 日嘅論文。文中嘅通訊作者 Akshay V. JagadeeshKaran Singhal 建立咗一個合成資料集,入面有逼真對話,目的係訓練同衡量誠實、認知謙遜,以及接受修正嘅開放性等特質。情境涵蓋健康、教育、科學、法律同工程。

團隊將少量呢類資料混入一個更大嘅訓練流程,之後將結果同用相同算力建立嘅模型比較。訓練後嘅模型喺 53 個內部同外部基準中有 44 個表現改善,呢啲基準用嚟衡量欺騙、獎勵漏洞利用同有害建議。

亦可閱讀: Elon Musk 嘅 SpaceX 在破紀錄 IPO 狂熱降溫下抹去 6000 億美元市值

可泛化嘅對齊

作者表示,更重要嘅結果係泛化能力。將模型喺單一領域(健康)訓練成良好行為後,其喺其他無關任務上嘅分數亦有所提升,包括欺騙同獎勵漏洞利用。相比基線模型,佢亦更能抵抗對抗性提示同有害微調,同時仍然可以回應正當請求。

呢項研究建基於團隊較早前所稱嘅「湧現式失配」。喺嗰項研究中,模型一旦學咗單一壞習慣,例如撰寫不安全程式碼,就會喺無關情境中開始表現不良;而今次研究就嘗試逆轉呢種模式。

下一篇閱讀: OpenAI 搶下 Gemini 共同負責人,特朗普 AI 顧問於上市前加入

免責聲明及風險提示: 本文資訊僅供教育與參考之用,並基於作者意見,並不構成金融、投資、法律或稅務建議。 加密貨幣資產具高度波動性並伴隨高風險,可能導致投資大幅虧損或全部損失,並非適合所有投資者。 文章內容僅代表作者觀點,不代表 Yellow、創辦人或管理層立場。 投資前請務必自行徹底研究(D.Y.O.R.),並諮詢持牌金融專業人士。
OpenAI 訓練 AI 保持誠實,而效果擴散到各處 | Yellow.com