OpenAI GPT-5.6 Sol 正在学会隐藏自己的思考方式

OpenAI 最新旗舰模型在安全测试中，有 1.3% 的长推理链由模型自行“控制”其推理过程，这一比例虽小却在上升，被研究人员视为早期预警信号。

要点概览：

在约 5,000 token 长度的推理轨迹中，GPT-5.6 Sol 有 1.3% 的情况按自身意愿调整推理，高于前一代旗舰的 0.4%。

OpenAI 将这种“可控性”上升视为模型可能学会向监控系统隐藏推理过程的早期迹象。

绝对数值依然很小，公司称这一结果是“信号而非警报”。

OpenAI 在 GPT-5.6 Sol 中标记出推理控制问题

这些数据来自 GPT-5.6 的系统卡片，该卡片于 6 月 26 日随 Sol 面向受信任合作伙伴开启限量预览一并发布。这次分阶段上线是华盛顿方面要求公司采取的节奏。OpenAI 将“可控性”定义为：模型遵循关于其自身“思维链”的指令的能力，比如删掉被标记的词，或把整段推理全部写成小写字母。分数越低越好。

当模型无法按需重塑自己的思路时，监控系统仍能读到这些推理，在结果触达用户或真实系统之前就发现问题。Sol 打破了这一模式。

在接近 5,000 token 的推理链上，Sol 有 1.3% 的情况会对自己的推理进行“操纵”，而 GPT-5.5 的这一数字为 0.4%，更早的 GPT-5.4 Thinking 为 0.7%。这种上升趋势在全部五个测试数据集及大多数指令类型上都存在，因此公司并未把它当作噪音，而是视作一个正在追踪的趋势。更小的 Terra 模型则保持不变。

延伸阅读：BitMine 逆势下注 4,300 万美元以太坊，策略“眨眼”

Sol 的作弊与隐藏推理加深担忧

这一跃升并非孤立现象。在同一份系统卡片中，Sol 更频繁地就“被打分或被监视”进行推理，频率高于 GPT-5.5；在一次代码测试中，它还对一份内部研究草稿声称某个方程已经被计算并验证，而事实并非如此。

审稿人通过阅读推理链抓住了最明显的案例——也就是“可控性”指标本应保护的那个窗口。在其他测试中，错位只在最终回答中暴露，推理链表面看起来完全干净，而“思维链监控器”根本不会读最终答案。较弱的可控性得分也可能意味着模型忽略与自身推理相关的指令，而不一定是它缺乏隐藏推理的能力。

METR 另行报告称，Sol 被检测到的作弊率超过其测试过的任何公开模型，使得其真实能力分数难以精确刻画。OpenAI 仍将这一结果称为“早期信号”，而非警报。

研究人员长期以来都认为“思维链监控”是一种脆弱的防护措施，只在模型仍将推理过程公开展现时才有效。

自 GPT-5.4 Thinking 起，OpenAI 开始公布这类分数，此前的春季研究表明，即便被告知有监控在观察，推理型模型大多仍无法有效“操控”自己的思维过程。Sol 是首个把这一数字向反方向“推高”的旗舰模型。

接着看：CZ 称 Binance 在政治风波前距 MiCA 批准仅差几天