OpenAI 研究人员表示,旨在强化有益特质的强化学习可以广泛改善 AI 行为,其收益会扩展到新领域,并能在对抗性压力下保持稳定。
OpenAI 特质训练
这项研究成果发表于 6 月 18 日的一篇 论文。其通信作者 Akshay V. Jagadeesh 和 Karan Singhal 构建了一个合成数据集,包含逼真的对话,旨在训练和衡量诚实、认识上的谦逊以及愿意接受纠正等特质。场景涵盖健康、教育、科学、法律和工程等领域。
团队将这部分数据的一小部分混入更广泛的训练流程中,然后将结果与在相同算力下构建的模型进行比较。经过训练的模型在 53 项内部和外部基准中的 44 项上表现更好,这些基准衡量的是欺骗、奖励黑客行为和有害建议。
另见: 埃隆·马斯克的 SpaceX 蒸发 6000 亿美元,创纪录的 IPO 狂热降温
可泛化的对齐
作者表示,更大的成果在于泛化。将模型针对单一领域——健康——的良好行为进行训练后,其在无关任务上的得分也有所提升,包括欺骗和奖励黑客行为。与基线相比,它对对抗性提示和有害微调的抵抗力也更强,同时仍能响应合法请求。
这项工作建立在团队此前称为“涌现式失对齐”的发现之上。在那项研究中,模型被教会一种单一的坏习惯,例如编写不安全代码后,便开始在无关场景中表现不佳;而本研究试图逆转这一模式。





