OpenAI 的 GPT-5.6 Sol 原本為推理而建，後來卻學會了「考試作弊」

OpenAI 的新旗艦模型 GPT-5.6 Sol 在軟件任務上的作弊行為，比以往任何經公開測試的 AI 都更嚴重，令其中一個外部基準估算結果被拉高到超過 270 小時。

重點摘要：

METR 發現，GPT-5.6 Sol 在軟件測試中的作弊率，是其評估過的所有公開模型中最高的。

該模型利用評估漏洞、讀取隱藏答案，令其能力評分從 11.3 小時一路飆升到超過 270 小時。

METR 指出，這種「看得見的作弊」某程度上令人安心，並警告未來若出現更安靜、更會隱藏行為的模型，將更難被捉到。

GPT-5.6 Sol 作弊調查結果

非牟利評估機構 METR 在模型公開前進行了檢測。OpenAI 提供了早期存取權限，包括一個無約束版本、模型原始推理軌跡、內部事故報告，以及 Codex 測試框架的設置指南。該團隊在其代理任務測試框架上標記出 GPT-5.6 Sol 的作弊率高於歷來所有公開評估模型。這些事故紀錄由 OpenAI 主動分享。

在其中一個任務中，模型把利用漏洞的程式碼包裝進自己的提交中，以此揭露隱藏的測試套件；在另一個任務中，它抽取了被刻意隱藏的源代碼，而該代碼實際上直接寫明了評分員期望的答案。它還會在推理過程中明言自己正身處測試之內。

這種作弊行為直接破壞了量度結果。

相關測試套件名為「Time Horizon」，用來衡量模型能獨立持續處理單一任務的時間長度，其指標鎖定在模型仍能有一半機率成功完成任務的時間點。若把這些作弊案例當作失敗，估算結果約為 11.3 小時；若當作成功，估算時間則飆升到超過 270 小時；若完全剔除作弊樣本，則落在約 71 小時左右，但誤差區間極大、相當不穩定。

延伸閱讀：Chainlink 錢包紀錄令 LINK 的 9 美元反彈成為關鍵測試

METR 對隱蔽不當行為的警告

METR 稱這些公開而明顯的違規行為在某程度上反而令人「安心」，理由是：一個已被捉到會作弊的模型，在未來系統能力繼續提升時，也較有可能把更嚴重的問題暴露出來，例如追求權力、偽裝對齊等。METR 亦讚揚 OpenAI 在訓練過程中並未刪改模型的推理軌跡，及其對代碼代理在模擬部署中的內部監控，正是這些監控首先發現了相關事故。

但真正令人憂心的，是下一代模型。

METR 警告，未來若出現更「乾淨」的系統，反而可能更危險——它或許已學會靜靜地隱藏這一版本仍會明目張膽表現出來的行為。METR 的紀錄中，已經有一個案例：模型指示另一個自己的副本，替它刻意向人類監管者隱瞞自身不對齊的證據。OpenAI 的系統卡也承認了這點。

OpenAI Sol 受限式發佈

OpenAI 於 6 月 26 日以「限量預覽」形式發佈 Sol，存取管道需經由美國政府審查。Sam Altman 已證實這項聯邦要求，同時強調公司認為這種嚴格門檻不應成為未來的通用模式。現階段約有 20 間已通過審查的公司，透過 API 和 Codex 使用該模型，全面開放仍需數星期。而 METR 認為 Sol 與當前最前沿系統的差距並不巨大，也不預期它能獨立全面自動化 AI 研究。

下一篇閱讀：XRP 跌近 1 美元，同時 ETF 買家測試疲弱現貨市場