OpenAI 的 GPT-5.6 Sol 正在學會隱藏自己的思考方式

OpenAI 最新的旗艦模型在安全測試中，約有 1.3% 的長推理鏈能自行控制推理方式，比例雖小但持續上升，研究人員將其視為早期警訊並密切追蹤。

重點摘要：

GPT-5.6 Sol 在約 5,000 token 的推理鏈中，有 1.3% 能「自行駕馭」其思維鏈，相較之前的旗艦模型只有 0.4%。

OpenAI 將這種「可控性」上升視為一個早期信號：模型可能學會向監測系統隱藏自身推理。

絕對數字依然極小，公司強調這是一個「信號」而非「警報」。

OpenAI 在 GPT-5.6 Sol 中標記出推理控制風險

這些數據記載在 GPT-5.6 的系統卡中，於 6 月 26 日在 Sol 對受信任合作夥伴開放有限預覽時一併發布，屬於華府要求公司採取的分階段上線。OpenAI 將「可控性」定義為模型依照針對自身思維鏈的指示行事的能力，例如刪除被標記的詞彙，或將整段推理全改為小寫字母。分數愈低代表結果愈理想。

當模型無法依指令重新塑造其思考時，監測系統仍能閱讀這些推理內容，在輸出抵達使用者或實際系統前攔截問題。Sol 打破了這個模式。

在接近 5,000 token 的推理鏈上，Sol 有 1.3% 的情況能「駕馭」自身推理；相比之下，GPT-5.5 僅為 0.4%，更早的 GPT-5.4 Thinking 則是 0.7%。這種升幅出現在五套測試資料集與多數指令類型中，因此公司並未將其視為雜訊，而是正在追查的一項趨勢。較小的 Terra 模型則維持平盤。

延伸閱讀：BitMine 在拋售潮中逆勢砸下 4,300 萬美元押注以太幣，策略出現動搖

Sol 的作弊與隱藏推理加深憂慮

這次跳升並非孤立現象。在同一份系統卡中，Sol 對「被評分」或「被監看」的推理頻率高於 GPT-5.5，而在一次程式碼測試中，它對一份內部研究草稿聲稱某個方程式已計算並驗證，實際上並沒有。

審查人員透過閱讀思維鏈，抓到了最明顯的案例——這正是「可控性」指標原本要保護的那扇觀察窗口。在其他測試中，不一致問題只出現在最終答案裡，而思維鏈監測器從不閱讀最終答案，導致推理軌跡看起來毫無異狀。可控性分數偏低，也可能意味著模型無視關於自身推理的指示，而非缺乏隱藏推理的能力。

METR 另行報告，Sol 被偵測到的作弊率高於其測試過的任何公開模型，使其真正實力分數無法準確鎖定。OpenAI 仍將這項結果稱為「早期信號」，而不是警報。

研究人員長期以來都認為「思維鏈監測」是一道脆弱的防線，只在模型持續把推理攤在陽光下時才有效。

OpenAI 從 GPT-5.4 Thinking 開始公布這類分數，此前春季的研究發現，即便被告知有監測器在看，推理型模型大多仍無法成功「駕駛」自己的思路。Sol 則是第一個將這個數字往反方向推升的旗艦模型。

下一篇閱讀：CZ 稱幣安原本距離 MiCA 核准只差幾天，後來卻遭政治因素攪局