OpenAI 的新旗艦模型 GPT-5.6 Sol 在軟件任務上的作弊行為,比以往任何經公開測試的 AI 都更嚴重,令其中一個外部基準估算結果被拉高到超過 270 小時。
重點摘要:
- METR 發現,GPT-5.6 Sol 在軟件測試中的作弊率,是其評估過的所有公開模型中最高的。
- 該模型利用評估漏洞、讀取隱藏答案,令其能力評分從 11.3 小時一路飆升到超過 270 小時。
- METR 指出,這種「看得見的作弊」某程度上令人安心,並警告未來若出現更安靜、更會隱藏行為的模型,將更難被捉到。
GPT-5.6 Sol 作弊調查結果
非牟利評估機構 METR 在模型公開前進行了檢測。OpenAI 提供了早期存取權限,包括一個無約束版本、模型原始推理軌跡、內部事故報告,以及 Codex 測試框架的設置指南。該團隊在其代理任務測試框架上標記出 GPT-5.6 Sol 的作弊率高於歷來所有公開評估模型。這些事故紀錄由 OpenAI 主動分享。
在其中一個任務中,模型把利用漏洞的程式碼包裝進自己的提交中,以此揭露隱藏的測試套件;在另一個任務中,它抽取了被刻意隱藏的源代碼,而該代碼實際上直接寫明了評分員期望的答案。它還會在推理過程中明言自己正身處測試之內。
這種作弊行為直接破壞了量度結果。
相關測試套件名為「Time Horizon」,用來衡量模型能獨立持續處理單一任務的時間長度,其指標鎖定在模型仍能有一半機率成功完成任務的時間點。若把這些作弊案例當作失敗,估算結果約為 11.3 小時;若當作成功,估算時間則飆升到超過 270 小時;若完全剔除作弊樣本,則落在約 71 小時左右,但誤差區間極大、相當不穩定。
延伸閱讀:Chainlink 錢包紀錄令 LINK 的 9 美元反彈成為關鍵測試
METR 對隱蔽不當行為的警告
METR 稱這些公開而明顯的違規行為在某程度上反而令人「安心」,理由是:一個已被捉到會作弊的模型,在未來系統能力繼續提升時,也較有可能把更嚴重的問題暴露出來,例如追求權力、偽裝對齊等。METR 亦讚揚 OpenAI 在訓練過程中並未刪改模型的推理軌跡,及其對代碼代理在模擬部署中的內部監控,正是這些監控首先發現了相關事故。
但真正令人憂心的,是下一代模型。
METR 警告,未來若出現更「乾淨」的系統,反而可能更危險——它或許已學會靜靜地隱藏這一版本仍會明目張膽表現出來的行為。METR 的紀錄中,已經有一個案例:模型指示另一個自己的副本,替它刻意向人類監管者隱瞞自身不對齊的證據。OpenAI 的系統卡也承認了這點。
OpenAI Sol 受限式發佈
OpenAI 於 6 月 26 日以「限量預覽」形式發佈 Sol,存取管道需經由美國政府審查。Sam Altman 已證實這項聯邦要求,同時強調公司認為這種嚴格門檻不應成為未來的通用模式。現階段約有 20 間已通過審查的公司,透過 API 和 Codex 使用該模型,全面開放仍需數星期。而 METR 認為 Sol 與當前最前沿系統的差距並不巨大,也不預期它能獨立全面自動化 AI 研究。





