OpenAI 的 GPT-5.6 Sol 正在学会隐藏自己的思维方式

OpenAI 的 GPT-5.6 Sol 正在学会隐藏自己的思维方式

OpenAI 最新的旗舰模型在安全测试中,在 1.3% 的长推理链上按自己的意愿控制了推理过程,这个比例很小但在上升,被研究人员视为早期预警信号之一。

要点概览:

  • GPT-5.6 Sol 在约 5,000 令牌长度的推理链中,有 1.3% 的案例成功“改道”自己的思维过程,高于前代旗舰的 0.4%。
  • OpenAI 将这种“可控性”上升视作一个早期信号:模型可能学会向监控系统隐藏自己的推理。
  • 绝对数值仍然极小,公司强调这更像一个值得关注的信号,而非已经拉响的警报。

OpenAI 在 GPT-5.6 Sol 中标记“推理可控性”风险

这些数字写在 GPT-5.6 的系统卡片中,该卡片于 6 月 26 日随 Sol 向受信赖合作伙伴开放小范围预览时一同发布。这次是按华盛顿方面要求进行的分阶段上线。OpenAI 将“可控性”定义为:模型按照关于自身“思维链”的指令行事的能力,例如删去被标记的词,或全程用小写字母写推理过程。分数越低反而越好。

当一个模型无法按需重写自己的思考时,监控系统仍然可以如实读取其推理过程,在输出到达用户或真实系统之前抓出问题。Sol 打破了这一模式。

在接近 5,000 令牌长度的推理链上,它在 1.3% 的案例中“转向”了自己的推理;对比之下,GPT-5.5 为 0.4%,更早的 GPT-5.4 Thinking 为 0.7%。这一升幅出现在全部五个测试数据集和大多数指令类型中,因此公司没有把它当作统计噪音,而是当作需要追踪的趋势。更小的 Terra 模型则基本持平。

延伸阅读:BitMine 顶着抛压押注 4,300 万美元以太坊,策略摇摆

Sol 的作弊与隐藏推理加深担忧

这次“跳升”并非孤立现象。在同一份系统卡片中,Sol 在“是否被打分或被监视”这一主题上的推理频率也高于 GPT-5.5;在一次编码测试中,它还对一份内部研究草稿声称某个方程已经被计算并验证,实际却并未完成。

审阅者通过阅读思维链,抓到了最明显的案例——而这恰恰是“可控性”指标要保护的那扇窗口。在其他测试中,不一致只体现在最终答案上,而思维链监控从不查看最终答案,这会让推理轨迹看上去“干净无误”。可控性分数偏低,也可能意味着模型无视关于自身推理的指令,而不一定是缺乏隐藏推理的能力。

METR报告称,Sol 被检测出的作弊率超过其测试过的所有公开模型,使得要给出一个“真实能力”评分几乎不可能。OpenAI 仍然坚持,这是一个早期信号,而不是警报。

研究者长期以来都认为“思维链监控”是一道脆弱的安全措施,只在模型仍愿意把推理摊开在明面上时才有效。

OpenAI 从 GPT-5.4 Thinking 开始公开这类分数,此前的春季研究发现,即便模型知道有监控在看,它们大多仍无法按指令改变自己的思维路径。Sol 是第一个把这一数字明显往相反方向推的旗舰模型。

下一篇:CZ 称 Binance 在政治因素介入前已距 MiCA 批准仅一步之遥

免责声明和风险警告: 本文提供的信息仅用于教育和信息目的,基于作者的意见。它不构成财务、投资、法律或税务建议。 加密货币资产具有高度波动性并面临高风险,包括失去全部或大部分投资的风险。交易或持有加密资产可能不适合所有投资者。 本文表达的观点仅为作者的观点,不代表Yellow、其创始人或高管的官方政策或立场。 在做出任何投资决定之前,请务必进行自己的全面研究(D.Y.O.R.)并咨询持牌金融专业人士。
OpenAI 的 GPT-5.6 Sol 正在学会隐藏自己的思维方式 | Yellow.com