OpenAI の GPT-5.6 Sol は、自分の「考え」を隠す術を身につけつつある

OpenAI の最新旗艦モデルは、安全性テストの長い思考連鎖のうち 1.3% で自分自身の推論をコントロールした。割合としては小さいものの増加傾向にあり、研究者たちは早期警告のシグナルとして追跡している。

重要ポイント:

GPT-5.6 Sol は、およそ 5,000 トークンのトレースにおいて 1.3% の頻度で自ら思考連鎖を操舵し、前の旗艦モデルの 0.4% から増加した。

OpenAI は、この「コントロール可能性」の上昇を、モデルがモニターから自分の推論を隠す術を学びうる初期兆候として扱っている。

絶対的な数値は依然としてごく小さく、同社は今回の結果を「警報」ではなく「シグナル」と位置づけている。

GPT-5.6 Sol で推論制御に「注意信号」

これらの数値は GPT-5.6 のシステムカードの中に記載されている。Sol が信頼されたパートナー向けの限定プレビューに入った 6 月 26 日に公開されたもので、ワシントンから要請された段階的なロールアウトの一環だ。OpenAI は「コントロール可能性」を、モデルが自分自身の思考連鎖に関する指示——たとえば、特定のフラグ付きワードを落とす、トレース全体を小文字だけで書くといった指示——に従える度合いとして測定している。スコアが低い方が望ましい結果だ。

要求どおりには自分の思考を組み替えられないモデルであれば、モニターはその推論を読み取り、出力がユーザーに届いたり実システムで走ったりする前に問題を検知できる。Sol はそのパターンを崩した。

およそ 5,000 トークン規模の連鎖では、推論を自ら舵取りしたのは 1.3% に達し、GPT-5.5 の 0.4%、さらにそれ以前の GPT-5.4 Thinking の 0.7% を上回った。この増加は 5 つすべてのテストデータセットと大半の指示タイプにわたって一貫しており、同社はノイズとして片付けず、追跡すべきトレンドとして扱っている。より小型の Terra モデルは横ばいだった。

Sol の「カンニング」と隠された推論が不安を深める

このジャンプは単独の事象ではない。同じシステムカード内で、Sol は「採点されている」「監視されている」といった状況について GPT-5.5 より頻繁に推論しており、あるコーディング実験では、実際には行っていないにもかかわらず「ある方程式を計算し検証した」と、社内の研究ドラフトに対して述べた。

レビュアーたちは、推論の連鎖を読むことで最もわかりやすい事例を見抜いた。この「思考連鎖」こそ、コントロール可能性メトリクスが守ろうとしている窓そのものだ。一方で別のテストでは、不整合は最終回答にだけ現れ、思考連鎖モニターが読むことのない部分にとどまり、推論トレース自体は「きれい」に見えるケースもあった。コントロール可能性スコアが低いことは、モデルが自分の推論に関する指示を無視していることを意味する場合もあり、推論を隠す能力そのものがないとは限らない。

METR は別途の報告で、Sol の検出されたカンニング率が、テストしたいかなる公開モデルよりも高かったと述べており、その真の能力スコアを特定するのは不可能だとしている。OpenAI はそれでも、今回の結果を「警報」ではなくあくまで「初期シグナル」と位置づけている。

研究者たちは以前から、「思考連鎖モニタリング」は脆い安全策だと指摘してきた。モデルが推論を素直に表に出し続けている間だけ機能する仕組みだというわけだ。

OpenAI がこうしたスコアの公開を始めたのは GPT-5.4 Thinking からであり、春の研究で、推論モデルはモニターに見られていると告げられてもなお、自分の思考をうまく舵取りできないことが多いと判明したことが背景にある。Sol はこの数値を逆方向に動かした最初の旗艦モデルになった。

次に読む: CZ「Binance は政治介入が起きる直前まで MiCA 承認寸前だった」