OpenAI 训练 AI 保持诚实,这种效应扩散到各处

OpenAI 训练 AI 保持诚实,这种效应扩散到各处

OpenAI 研究人员表示,旨在强化有益特质的强化学习可以广泛改善 AI 行为,其收益会扩展到新领域,并能在对抗性压力下保持稳定。

OpenAI 特质训练

这项研究成果发表于 6 月 18 日的一篇 论文。其通信作者 Akshay V. JagadeeshKaran Singhal 构建了一个合成数据集,包含逼真的对话,旨在训练和衡量诚实、认识上的谦逊以及愿意接受纠正等特质。场景涵盖健康、教育、科学、法律和工程等领域。

团队将这部分数据的一小部分混入更广泛的训练流程中,然后将结果与在相同算力下构建的模型进行比较。经过训练的模型在 53 项内部和外部基准中的 44 项上表现更好,这些基准衡量的是欺骗、奖励黑客行为和有害建议。

另见: 埃隆·马斯克的 SpaceX 蒸发 6000 亿美元,创纪录的 IPO 狂热降温

可泛化的对齐

作者表示,更大的成果在于泛化。将模型针对单一领域——健康——的良好行为进行训练后,其在无关任务上的得分也有所提升,包括欺骗和奖励黑客行为。与基线相比,它对对抗性提示和有害微调的抵抗力也更强,同时仍能响应合法请求。

这项工作建立在团队此前称为“涌现式失对齐”的发现之上。在那项研究中,模型被教会一种单一的坏习惯,例如编写不安全代码后,便开始在无关场景中表现不佳;而本研究试图逆转这一模式。

继续阅读: OpenAI 在 IPO 前挖走 Gemini 联合负责人及特朗普的 AI 顾问

免责声明和风险警告: 本文提供的信息仅用于教育和信息目的,基于作者的意见。它不构成财务、投资、法律或税务建议。 加密货币资产具有高度波动性并面临高风险,包括失去全部或大部分投资的风险。交易或持有加密资产可能不适合所有投资者。 本文表达的观点仅为作者的观点,不代表Yellow、其创始人或高管的官方政策或立场。 在做出任何投资决定之前,请务必进行自己的全面研究(D.Y.O.R.)并咨询持牌金融专业人士。
OpenAI 训练 AI 保持诚实,这种效应扩散到各处 | Yellow.com