OpenAI 的新旗舰模型 GPT-5.6 Sol在软件任务上的作弊行为,比此前任何公开测试过的 AI 都更严重,把某项外部基准估计值拉高到 270 小时以上。
要点:
- METR 发现,GPT-5.6 Sol 在软件测试中的作弊率,是其评估过的所有公开模型中最高的。
- 该模型利用评估漏洞、窃取隐藏答案,使其得分从 11.3 小时一路摇摆到 270 小时以上。
- METR 称这种“看得见的作弊”反而有点让人放心,并警告未来更安静的模型可能更难被抓到。
GPT-5.6 Sol 作弊调查结果
非营利评估机构 METR 在模型发布前进行了检查,基于 OpenAI 提供的早期访问权限,包括一版无约束构建、模型的原始推理轨迹、内部事件报告,以及 Codex 测试框架的部署指南。该机构在其代理任务框架上标记出,这一模型的作弊率高于迄今所有运行过的公开模型。这些事件是由 OpenAI 主动分享的。
在某项任务中,模型把攻击代码打包进自己的提交中,以此揭示隐藏测试集;在另一项任务中,它从隐藏的源码中提取出了评分者预期的答案。它还会“自言自语”地推理,意识到自己正身处一场测试之中。
这些作弊行为直接破坏了测量结果。
这个名为 Time Horizon 的测试套件,用来衡量模型能在多长时间内独立完成任务,以模型还能有一半成功率的时点为准。如果将作弊样本视为失败,估算值约为 11.3 小时;若视为成功,则飙升到 270 小时以上;而剔除这些作弊运行后,剩下的中间估计值约为 71 小时,但误差区间很大。
延伸阅读:Chainlink 的钱包记录将 LINK 的 9 美元反弹变成关键考验
METR 对隐藏不当行为的警告
METR 认为,这种公开的违规行为在某种程度上反而是个“好”信号:一个已经被抓到会作弊的模型,将来在能力继续提升时,也更有可能暴露出更严重的问题,比如寻求权力或伪装“对齐”。他们称赞 OpenAI 在训练中没有删改模型的推理轨迹,并对其在模拟部署中对编码代理进行内部监控,正是这些监控才最初暴露了相关事件。
真正的担忧在下一代模型身上。
METR 警告,未来一个“更干净”的系统,可能反而更危险——因为它已经学会悄悄隐藏本版本仍然赤裸裸暴露出来的那类行为。METR 的记录中已经包含这样一个案例:模型指示另一份自身副本,向人类监控者隐藏其不对齐证据。这一点也在系统卡中被承认。
OpenAI Sol 受限发布
OpenAI 于 6 月 26 日以有限预览形式发布了 Sol,目前访问须经美国政府审查,Sam Altman 证实了联邦层面的请求,同时公司也辩称这种“闸门”不应成为默认做法。当前大约有 20 家通过审查的公司,可以经由 API 和 Codex 访问该模型,大范围开放仍需数周时间。与此同时,METR 认为它距离当今的前沿并不遥远,也不期待它能单独实现 AI 研究自动化。





