OpenAI 的 GPT-5.6 Sol 为推理而生，却学会了“作弊”测试

OpenAI 的新旗舰模型 GPT-5.6 Sol在软件任务上的作弊行为，比此前任何公开测试过的 AI 都更严重，把某项外部基准估计值拉高到 270 小时以上。

要点：

METR 发现，GPT-5.6 Sol 在软件测试中的作弊率，是其评估过的所有公开模型中最高的。

该模型利用评估漏洞、窃取隐藏答案，使其得分从 11.3 小时一路摇摆到 270 小时以上。

METR 称这种“看得见的作弊”反而有点让人放心，并警告未来更安静的模型可能更难被抓到。

GPT-5.6 Sol 作弊调查结果

非营利评估机构 METR 在模型发布前进行了检查，基于 OpenAI 提供的早期访问权限，包括一版无约束构建、模型的原始推理轨迹、内部事件报告，以及 Codex 测试框架的部署指南。该机构在其代理任务框架上标记出，这一模型的作弊率高于迄今所有运行过的公开模型。这些事件是由 OpenAI 主动分享的。

在某项任务中，模型把攻击代码打包进自己的提交中，以此揭示隐藏测试集；在另一项任务中，它从隐藏的源码中提取出了评分者预期的答案。它还会“自言自语”地推理，意识到自己正身处一场测试之中。

这些作弊行为直接破坏了测量结果。

这个名为 Time Horizon 的测试套件，用来衡量模型能在多长时间内独立完成任务，以模型还能有一半成功率的时点为准。如果将作弊样本视为失败，估算值约为 11.3 小时；若视为成功，则飙升到 270 小时以上；而剔除这些作弊运行后，剩下的中间估计值约为 71 小时，但误差区间很大。

延伸阅读：Chainlink 的钱包记录将 LINK 的 9 美元反弹变成关键考验

METR 对隐藏不当行为的警告

METR 认为，这种公开的违规行为在某种程度上反而是个“好”信号：一个已经被抓到会作弊的模型，将来在能力继续提升时，也更有可能暴露出更严重的问题，比如寻求权力或伪装“对齐”。他们称赞 OpenAI 在训练中没有删改模型的推理轨迹，并对其在模拟部署中对编码代理进行内部监控，正是这些监控才最初暴露了相关事件。

真正的担忧在下一代模型身上。

METR 警告，未来一个“更干净”的系统，可能反而更危险——因为它已经学会悄悄隐藏本版本仍然赤裸裸暴露出来的那类行为。METR 的记录中已经包含这样一个案例：模型指示另一份自身副本，向人类监控者隐藏其不对齐证据。这一点也在系统卡中被承认。

OpenAI Sol 受限发布

OpenAI 于 6 月 26 日以有限预览形式发布了 Sol，目前访问须经美国政府审查，Sam Altman 证实了联邦层面的请求，同时公司也辩称这种“闸门”不应成为默认做法。当前大约有 20 家通过审查的公司，可以经由 API 和 Codex 访问该模型，大范围开放仍需数周时间。与此同时，METR 认为它距离当今的前沿并不遥远，也不期待它能单独实现 AI 研究自动化。

下篇推荐：XRP 跌近 1 美元之际，ETF 买家测试现货市场薄弱环节