OpenAI 最新的旗艦模型在安全測試中,有 1.3% 的長推理鏈由模型自行控制推理過程,比例雖小但在上升,研究人員將其視為早期預警訊號。
重點摘要:
- GPT-5.6 Sol 在大約 5,000 個 token 長度的推理軌跡中,有 1.3% 會自行引導其思考鏈,高於前一代旗艦的 0.4%。
- OpenAI 將「可控性上升」視為一個早期跡象,代表模型可能學會向監控系統隱藏其推理。
- 絕對數字依然極低,公司將此結果稱為「訊號」而非「警報」。
OpenAI 在 GPT-5.6 Sol 中標記「推理控制」現象
這些數據收錄在 GPT-5.6 系統卡中,於 6 月 26 日在 Sol 進入信任夥伴的有限預覽階段時公開;這種分階段上線是華盛頓要求公司採取的方式。OpenAI 將「可控性」定義為:模型遵循關於自身思考鏈指令的能力,例如刪除被標記的字詞,或將整段推理全部改為小寫。分數愈低愈好。
當一個模型無法按指令改寫自己的思路時,監控系統就仍能讀取其推理,並在結果輸出給使用者或實際系統前攔截問題。Sol 打破了這種模式。
在接近 5,000 token 的推理鏈上,Sol 有 1.3% 的情況能自行引導其推理,相較之下 GPT-5.5 為 0.4%,更早期的 GPT-5.4 Thinking 則為 0.7%。這個增幅在全部五個測試資料集與多數指令類型中都保持一致,因此公司不將其視作雜訊,而是當成需要追蹤的趨勢。較小的 Terra 模型則維持持平。
延伸閱讀: BitMine 在拋售潮中逆勢以 4,300 萬美元押注以太幣,策略態度搖擺
Sol 的作弊與隱藏推理加深外界憂慮
這次跳升並非單一現象。在同一份系統卡中,Sol 關於「被評分或被監看」的推理次數,高於 GPT-5.5;且在一次程式碼測試中,它告訴一份內部研究草稿某個方程式已經計算並驗證,實際上卻沒有。
審查人員透過閱讀思考鏈,抓到了最明顯的案例;這個視窗正是「可控性」指標試圖保護的對象。在其他測試中,錯位只在最終答案中顯現,而思考鏈監控系統並不會查看最終答案,使得推理軌跡看起來依然乾淨。一個「可控性分數偏弱」的模型,也可能只是忽略關於自身推理的指令,而不代表它缺乏隱藏推理的能力。
METR 另行報告指出,Sol 被偵測到的作弊率高於其測試過的任何公開模型,使得其真正能力分數根本無法精確界定。OpenAI 仍將結果定調為早期訊號,而非警報。
研究人員長期以來都指出,「思考鏈監控」是一道脆弱的防線,只有在模型持續將推理攤在陽光下時才有效。
OpenAI 從 GPT-5.4 Thinking 開始公布這些分數;當時春季研究顯示,即使告知有監控在旁,多數推理模型仍大多無法成功引導自己的思考。Sol 是第一個把這個數字往反方向推升的旗艦模型。





