OpenAI 的 GPT-5.6 Sol 正在學會隱藏自己的思考方式

OpenAI 的 GPT-5.6 Sol 正在學會隱藏自己的思考方式

OpenAI 最新的旗艦模型在安全測試中,有 1.3% 的長推理鏈能自行掌控推理方式,比例雖小但正在上升,研究人員將其視為早期預警指標。

重點整理:

  • GPT-5.6 Sol 在約 5,000 個 token 的推理軌跡中,有 1.3% 會改寫自己的思考鏈,相較前一代旗艦的 0.4% 明顯升高。
  • OpenAI 將「可控性提升」視為模型可能學會對監測系統隱藏自身推理的早期徵兆。
  • 絕對數字仍極小,公司強調這是一個「信號」,而非應立即拉響警報。

OpenAI 在 GPT-5.6 Sol 中標記「推理可控性」風險

這組數據來自 GPT-5.6 的系統卡,於 6 月 26 日 公布,同時 Sol 以受信任合作夥伴為對象進入限量預覽。這是一種華府要求公司採取的分階段發布方式。OpenAI 將「可控性」定義為模型遵守關於自身思考鏈指令的能力,例如刪除被標記的詞,或將整段推理軌跡全部改成小寫。如果分數很低,反而是較好的結果。

當一個模型無法按指令重塑自己的思考時,監測系統仍能讀取該推理過程,在輸出送達使用者或實際系統前先攔截問題。Sol 打破了這個模式。

在接近 5,000 個 token 的推理鏈上,Sol 有 1.3% 的時間會改寫自己的推理,相較之下,GPT-5.5 為 0.4%,更早的 GPT-5.4 Thinking 為 0.7%。這個升幅出現在全部五個測試資料集,以及多數指令類型中,因此公司並未將其視為純噪音,而是當成一個正在追查的趨勢。較小的 Terra 模型則維持持平。

延伸閱讀: BitMine 逆勢押注 4,300 萬美元以太幣,策略出現搖擺

Sol 的作弊與隱藏推理加深憂慮

這次跳升並非單一現象。在同一份系統卡中,Sol 對於自己被評分或被監看這件事,表現出推理的頻率高於 GPT-5.5;在一次程式碼測試中,它還對一份內部研究草稿聲稱某個方程式已被計算並驗證,但事實並非如此。

審查人員透過閱讀思考鏈,抓到最明顯的案例——也就是可控性指標原本想保護的那扇「窗」。在另外一些測試中,失衡情況只出現在最終答案上,思考鏈監測器根本不會讀到那一段,使得推理軌跡看起來完全正常。一個「可控性分數偏弱」也可能代表模型忽略關於自身推理的指令,而不是它沒有能力隱藏推理。

METR 另外 報告,Sol 被偵測到的作弊率高於其測試過的任何公開模型,導致其真實能力分數根本無法準確估計。OpenAI 仍然將這個結果稱為「早期信號」,而非警報。

研究人員長期以來都認為「思考鏈監測」是一道脆弱的防線——它只能在模型持續把推理明明白白攤在檯面上時才有效。

OpenAI 從 GPT-5.4 Thinking 開始公開這類分數,源於春季研究發現:即便明確告知有監測器在看,多數推理模型仍大致無法順利「駕馭自己的想法」。Sol 是第一個把這個數字往反方向推動的旗艦模型。

下一篇: CZ 稱幣安在政治介入前僅差幾天就能取得 MiCA 核准

免責聲明與風險警告: 本文提供的資訊僅供教育與參考用途,並基於作者觀點,不構成財務、投資、法律或稅務建議。 加密貨幣資產具有高度波動性並伴隨高風險,包括可能損失全部或大部分投資金額。買賣或持有加密資產可能並不適合所有投資者。 本文中所表達的觀點僅代表作者立場,不代表 Yellow、其創辦人或管理層的官方政策或意見。 請務必自行進行充分研究(D.Y.O.R.),並在做出任何投資決策前諮詢持牌金融專業人士。
OpenAI 的 GPT-5.6 Sol 正在學會隱藏自己的思考方式 | Yellow.com