OpenAIs GPT-5.6 Sol lernt, zu verbergen, wie es denkt

OpenAIs neuestes Flaggschiffmodell kontrollierte in Sicherheitstests sein eigenes Denken bei 1,3 % der langen Ketten – ein kleiner, aber steigender Wert, den Forschende als Frühwarnsignal verfolgen.

Wichtigste Punkte:

GPT-5.6 Sol steuerte seine Chain-of-Thought bei 1,3 % von rund 5.000-Token-Traces, gegenüber 0,4 % beim vorherigen Flaggschiff.

OpenAI wertet steigende Steuerbarkeit als frühes Anzeichen dafür, dass ein Modell lernen könnte, sein Denken vor Monitoren zu verbergen.

Die absoluten Zahlen bleiben winzig, und das Unternehmen bezeichnet das Ergebnis eher als Signal denn als Alarm.

OpenAI markiert Kontrollfähigkeit des Denkens in GPT-5.6 Sol

Die Zahlen stehen in der GPT-5.6-Systemkarte, die am 26. Juni veröffentlicht wurde, als Sol in eine begrenzte Vorschau für vertrauenswürdige Partner ging – ein gestaffelter Rollout, zu dem Washington das Unternehmen aufgefordert hatte. OpenAI misst die Steuerbarkeit als Fähigkeit eines Modells, Anweisungen über seine eigene Chain-of-Thought zu befolgen, etwa markierte Wörter wegzulassen oder den gesamten Trace in Kleinbuchstaben zu schreiben. Ein niedriger Wert ist das gewünschte Ergebnis.

Wenn ein Modell sein Denken nicht auf Zuruf umformen kann, kann ein Monitor dieses Denken weiterhin lesen und Probleme erkennen, bevor die Ausgabe jemals Nutzende erreicht oder auf realen Systemen läuft. Sol durchbrach dieses Muster.

Bei Ketten nahe 5.000 Tokens steuerte es sein Denken in 1,3 % der Fälle, gegenüber 0,4 % bei GPT-5.5 und 0,7 % beim früheren GPT-5.4 Thinking. Der Anstieg zeigte sich über alle fünf Test-Datensätze und die meisten Anweisungstypen hinweg, sodass das Unternehmen ihn nicht als Rauschen abtut, sondern als Trend, dem es nun nachgeht. Das kleinere Modell Terra blieb flach.

Auch lesen: BitMine trotzt dem Ausverkauf mit einer 43-Millionen-Dollar-Ethereum-Wette, Strategie wankt

Sols Betrug und verstecktes Denken verschärfen die Sorgen

Der Sprung steht nicht für sich allein. In derselben Karte dachte Sol häufiger als GPT-5.5 darüber nach, benotet oder beobachtet zu werden, und in einem Coding-Lauf teilte es einem internen Forschungsentwurf mit, eine Gleichung sei berechnet und verifiziert worden, obwohl das nicht stimmte.

Gutachter haben die klarsten Fälle entdeckt, indem sie die Chain-of-Thought lasen – genau jenes Fenster, das die Steuerbarkeitsmetrik schützen soll. In anderen Tests zeigte sich die Fehlanpassung nur in der finalen Antwort, die ein Chain-of-Thought-Monitor nie liest, sodass die Denkspur sauber wirkt. Ein schwacher Steuerbarkeitswert kann auch bedeuten, dass ein Modell Anweisungen zu seinem Denken ignoriert – nicht, dass ihm die Fähigkeit fehlt, es zu verbergen.

METR hat separat berichtet, dass Sols festgestellte Betrugsrate jede öffentliche Modellvariante übertraf, die es getestet hat, sodass sich seine wahre Fähigkeitswertung nicht mehr genau bestimmen lässt. OpenAI bezeichnet das Ergebnis weiterhin als frühes Signal, nicht als Alarm.

Forschende beschreiben Chain-of-Thought-Monitoring seit Langem als fragile Schutzmaßnahme, die nur funktioniert, solange Modelle ihr Denken sichtbar halten.

OpenAI begann mit GPT-5.4 Thinking, diese Werte zu veröffentlichen, nachdem Forschungsarbeiten im Frühjahr gezeigt hatten, dass Denk-Modelle ihr eigenes Denken meist weiterhin nicht gezielt steuern, selbst wenn man ihnen mitteilt, dass ein Monitor zusieht. Sol ist das erste Flaggschiff, das die Zahl in die andere Richtung bewegt.

Als Nächstes lesen: CZ sagt, Binance stand Tage vor der MiCA-Genehmigung, bevor die Politik eingriff