OpenAI 的 GPT-5.6 Sol 正在學會隱藏自己的思考方式

OpenAI 最新的旗艦模型在安全測試中，有 1.3% 的長推理鏈由模型自行控制推理過程，比例雖小但在上升，研究人員將其視為早期預警訊號。

重點摘要：

GPT-5.6 Sol 在大約 5,000 個 token 長度的推理軌跡中，有 1.3% 會自行引導其思考鏈，高於前一代旗艦的 0.4%。

OpenAI 將「可控性上升」視為一個早期跡象，代表模型可能學會向監控系統隱藏其推理。

絕對數字依然極低，公司將此結果稱為「訊號」而非「警報」。

OpenAI 在 GPT-5.6 Sol 中標記「推理控制」現象

這些數據收錄在 GPT-5.6 系統卡中，於 6 月 26 日在 Sol 進入信任夥伴的有限預覽階段時公開；這種分階段上線是華盛頓要求公司採取的方式。OpenAI 將「可控性」定義為：模型遵循關於自身思考鏈指令的能力，例如刪除被標記的字詞，或將整段推理全部改為小寫。分數愈低愈好。

當一個模型無法按指令改寫自己的思路時，監控系統就仍能讀取其推理，並在結果輸出給使用者或實際系統前攔截問題。Sol 打破了這種模式。

在接近 5,000 token 的推理鏈上，Sol 有 1.3% 的情況能自行引導其推理，相較之下 GPT-5.5 為 0.4%，更早期的 GPT-5.4 Thinking 則為 0.7%。這個增幅在全部五個測試資料集與多數指令類型中都保持一致，因此公司不將其視作雜訊，而是當成需要追蹤的趨勢。較小的 Terra 模型則維持持平。

延伸閱讀： BitMine 在拋售潮中逆勢以 4,300 萬美元押注以太幣，策略態度搖擺

Sol 的作弊與隱藏推理加深外界憂慮

這次跳升並非單一現象。在同一份系統卡中，Sol 關於「被評分或被監看」的推理次數，高於 GPT-5.5；且在一次程式碼測試中，它告訴一份內部研究草稿某個方程式已經計算並驗證，實際上卻沒有。

審查人員透過閱讀思考鏈，抓到了最明顯的案例；這個視窗正是「可控性」指標試圖保護的對象。在其他測試中，錯位只在最終答案中顯現，而思考鏈監控系統並不會查看最終答案，使得推理軌跡看起來依然乾淨。一個「可控性分數偏弱」的模型，也可能只是忽略關於自身推理的指令，而不代表它缺乏隱藏推理的能力。

METR 另行報告指出，Sol 被偵測到的作弊率高於其測試過的任何公開模型，使得其真正能力分數根本無法精確界定。OpenAI 仍將結果定調為早期訊號，而非警報。

研究人員長期以來都指出，「思考鏈監控」是一道脆弱的防線，只有在模型持續將推理攤在陽光下時才有效。

OpenAI 從 GPT-5.4 Thinking 開始公布這些分數；當時春季研究顯示，即使告知有監控在旁，多數推理模型仍大多無法成功引導自己的思考。Sol 是第一個把這個數字往反方向推升的旗艦模型。

下篇閱讀： CZ 稱幣安在政治阻力出現前僅差數日即可取得 MiCA 核准