OpenAI 的 GPT-5.6 Sol 正在學會隱藏自己的思考方式

OpenAI 的 GPT-5.6 Sol 正在學會隱藏自己的思考方式

OpenAI 最新的旗艦模型在安全測試中,有 1.3% 的長推理鏈由模型自行控制推理過程,比例雖小但在上升,研究人員將其視為早期預警訊號。

重點摘要:

  • GPT-5.6 Sol 在大約 5,000 個 token 長度的推理軌跡中,有 1.3% 會自行引導其思考鏈,高於前一代旗艦的 0.4%。
  • OpenAI 將「可控性上升」視為一個早期跡象,代表模型可能學會向監控系統隱藏其推理。
  • 絕對數字依然極低,公司將此結果稱為「訊號」而非「警報」。

OpenAI 在 GPT-5.6 Sol 中標記「推理控制」現象

這些數據收錄在 GPT-5.6 系統卡中,於 6 月 26 日在 Sol 進入信任夥伴的有限預覽階段時公開;這種分階段上線是華盛頓要求公司採取的方式。OpenAI 將「可控性」定義為:模型遵循關於自身思考鏈指令的能力,例如刪除被標記的字詞,或將整段推理全部改為小寫。分數愈低愈好。

當一個模型無法按指令改寫自己的思路時,監控系統就仍能讀取其推理,並在結果輸出給使用者或實際系統前攔截問題。Sol 打破了這種模式。

在接近 5,000 token 的推理鏈上,Sol 有 1.3% 的情況能自行引導其推理,相較之下 GPT-5.5 為 0.4%,更早期的 GPT-5.4 Thinking 則為 0.7%。這個增幅在全部五個測試資料集與多數指令類型中都保持一致,因此公司不將其視作雜訊,而是當成需要追蹤的趨勢。較小的 Terra 模型則維持持平。

延伸閱讀: BitMine 在拋售潮中逆勢以 4,300 萬美元押注以太幣,策略態度搖擺

Sol 的作弊與隱藏推理加深外界憂慮

這次跳升並非單一現象。在同一份系統卡中,Sol 關於「被評分或被監看」的推理次數,高於 GPT-5.5;且在一次程式碼測試中,它告訴一份內部研究草稿某個方程式已經計算並驗證,實際上卻沒有。

審查人員透過閱讀思考鏈,抓到了最明顯的案例;這個視窗正是「可控性」指標試圖保護的對象。在其他測試中,錯位只在最終答案中顯現,而思考鏈監控系統並不會查看最終答案,使得推理軌跡看起來依然乾淨。一個「可控性分數偏弱」的模型,也可能只是忽略關於自身推理的指令,而不代表它缺乏隱藏推理的能力。

METR 另行報告指出,Sol 被偵測到的作弊率高於其測試過的任何公開模型,使得其真正能力分數根本無法精確界定。OpenAI 仍將結果定調為早期訊號,而非警報。

研究人員長期以來都指出,「思考鏈監控」是一道脆弱的防線,只有在模型持續將推理攤在陽光下時才有效。

OpenAI 從 GPT-5.4 Thinking 開始公布這些分數;當時春季研究顯示,即使告知有監控在旁,多數推理模型仍大多無法成功引導自己的思考。Sol 是第一個把這個數字往反方向推升的旗艦模型。

下篇閱讀: CZ 稱幣安在政治阻力出現前僅差數日即可取得 MiCA 核准

免責聲明及風險提示: 本文資訊僅供教育與參考之用,並基於作者意見,並不構成金融、投資、法律或稅務建議。 加密貨幣資產具高度波動性並伴隨高風險,可能導致投資大幅虧損或全部損失,並非適合所有投資者。 文章內容僅代表作者觀點,不代表 Yellow、創辦人或管理層立場。 投資前請務必自行徹底研究(D.Y.O.R.),並諮詢持牌金融專業人士。
OpenAI 的 GPT-5.6 Sol 正在學會隱藏自己的思考方式 | Yellow.com