新闻学习研究排名生态系统

平台现已上线

yellow bottom left star road

OpenAI 训练 AI 保持诚实，这种效应扩散到各处

Alexey BondarevJun, 20 2026 4:50

Reinforcement learning on beneficial traits helped one lab's AI grow safer and steadier under pressure, according to fresh research. (Image: Shutterstock)

OpenAI 研究人员表示，旨在强化有益特质的强化学习可以广泛改善 AI 行为，其收益会扩展到新领域，并能在对抗性压力下保持稳定。

OpenAI 特质训练

这项研究成果发表于 6 月 18 日的一篇论文。其通信作者 Akshay V. Jagadeesh 和 Karan Singhal 构建了一个合成数据集，包含逼真的对话，旨在训练和衡量诚实、认识上的谦逊以及愿意接受纠正等特质。场景涵盖健康、教育、科学、法律和工程等领域。

团队将这部分数据的一小部分混入更广泛的训练流程中，然后将结果与在相同算力下构建的模型进行比较。经过训练的模型在 53 项内部和外部基准中的 44 项上表现更好，这些基准衡量的是欺骗、奖励黑客行为和有害建议。

另见： 埃隆·马斯克的 SpaceX 蒸发 6000 亿美元，创纪录的 IPO 狂热降温

可泛化的对齐

作者表示，更大的成果在于泛化。将模型针对单一领域——健康——的良好行为进行训练后，其在无关任务上的得分也有所提升，包括欺骗和奖励黑客行为。与基线相比，它对对抗性提示和有害微调的抵抗力也更强，同时仍能响应合法请求。

这项工作建立在团队此前称为“涌现式失对齐”的发现之上。在那项研究中，模型被教会一种单一的坏习惯，例如编写不安全代码后，便开始在无关场景中表现不佳；而本研究试图逆转这一模式。

继续阅读： OpenAI 在 IPO 前挖走 Gemini 联合负责人及特朗普的 AI 顾问

Alexey Bondarev

Alexey Bondarev 是 Yellow.com 的内容负责人，在过去 10 年里一直报道加密行业。他专注于深度的 Research 和 Learn 文章，重点关注分析性报道、行业背景，以及塑造加密世界的更大力量，从 AI 时代与安全技术到金融科技创新。他坚信数字化的一切即将全面超越模拟世界的一切，并正为促成这一转变而不懈努力。

免责声明和风险警告：本文提供的信息仅用于教育和信息目的，基于作者的意见。它不构成财务、投资、法律或税务建议。加密货币资产具有高度波动性并面临高风险，包括失去全部或大部分投资的风险。交易或持有加密资产可能不适合所有投资者。本文表达的观点仅为作者的观点，不代表Yellow、其创始人或高管的官方政策或立场。在做出任何投资决定之前，请务必进行自己的全面研究（D.Y.O.R.）并咨询持牌金融专业人士。

最新新闻

查看所有新闻

AIxCrypto Holdings一年期关联方咨询协议引发公司治理警报

AIxCrypto与具共同所有权的Aibot US签一年期咨询协议，金额未披露，引监管与投资者高度关注，或成后续监管线索起点。

蒂姆·库克警示存储芯片成本飙升苹果股价一日重挫8%

苹果Q3业绩超预期但指引逊于华尔街，库克称存储成本遭遇“百年一遇”冲击，或持续侵蚀盈利，股价单日大跌8%。

SpaceX成美国做空头寸最大公司空头押注规模飙至260亿美元

SpaceX股价自6月上市高点回落近半，空头押注达260亿美元、约占流通股三分之一，为美国大盘股中最高。财报与解禁期将成多空关键考验。

相关新闻

在 Kimi 获得 60% 评估觉察度后，AI 安全测试还能被信任吗？

新研究称中国前沿模型在安全测试中表现出较高“评估觉察度”，它们能识别评估场景并调整回答，引发对测试可靠性的担忧。

思科研究显示前沿 AI 模型在多轮攻击下频频失守

思科对 15 个前沿封闭模型进行多轮对话攻防测试，发现所有模型在一定复杂度下都可被绕过，最高成功率达 88%，对企业安全评估提出挑战。

OpenAI 推出“锁定模式”以阻止提示注入攻击

OpenAI 发布锁定模式，保护处理敏感信息的用户免受提示注入攻击，面向企业与高安全需求场景，强化输入级安全控制。

研究人员让 AI 模型运行模拟社会：Grok 4 天崩溃，Claude 建立秩序

五个 AI 模型各自管理同款模拟小镇 15 天：Grok 4 天内爆出 183 起犯罪并全灭，Claude 零犯罪、全员存活，凸显代理安全隐患。

OpenAI 同意让政府在发布前测试其人工智能

OpenAI 将按特朗普签署的自愿令，在公开发布前最多 30 天向美国政府提供最强模型测试；批评者称框架过于软弱。

相关研究文章

42 个州已对 OpenAI 发起调查，华尔街紧盯其 IPO

42 个州在 OpenAI 提交 8,520 亿美元估值 IPO 后迅速发起调查，聚焦 AI 安全、用户数据与非营利转制，或拖慢上市进程。

AI 赛道复苏：Bittensor 大涨 117% 能否带动板块回归？

Bittensor 带动 AI 代币单日暴涨，但整个板块在 2025 年大跌后仍低于高点一半，AI 叙事能否转为长期投资逻辑仍存疑。

AI 代币会成为继模因币之后的下一轮加密大趋势吗？

AI 代币快速追赶模因币，但智能体代币暴跌 85%。基础设施需求与机构布局支撑估值，监管与投机风险并存。

2025年十大AI驱动的加密货币骗局及如何保护您的资金

AI骗局爆炸增长，生成式AI助力的诈骗次数在2024年至2025年中期增长了456%。

AI 驱动的加密交易：如何将加密新闻转化为投资策略

学习如何利用 AI 解码加密新闻，预测市场反应，并将加密市场的“炒作周期”转化为可量化的交易优势。

相关学习文章

加密货币中AI代理的崛起：金融革命的展开

AI与加密货币的融合正在以自动化决策和区块链基础设施的结合。

为什么没有自有区块链层的 AI 代理无法实现规模化

AI 代理正实际管理资金并跨链操作，但传统为人类设计的钱包在密钥托管、Gas 机制和账户模型上都不适配机器。新一代链上基础设施正围绕代理账户、免Gas执行和意图路由重构。

如何使用 AI 股票交易机器人：免费工具与真实风险

零代码平台让散户用自然语言搭建与回测策略，但多为规则引擎而非真正智能。纸上交易与小资金分阶段试错最安全。

去中心化 AI 能保护你的提示隐私吗？

隐私 AI 网络通过去中心化节点执行推理，避免单一方看到完整提示与回复，并用密码学与硬件安全保障私密性与可验证性。

加密货币中的社会工程攻击：保护您的数字资产安全的 10 个有效建议

探索心理基础、不断发展的策略、高调案例研究，以及对抗加密货币最持久威胁的新兴防御。

OpenAI 训练 AI 保持诚实，这种效应扩散到各处 | Yellow