OpenAIs neuestes Vorzeigemodell steuerte in Sicherheitstests sein eigenes Denken bei 1,3 % der langen Ketten – ein kleiner, aber steigender Wert, den Forschende als Frühwarnsignal beobachten.
Zentrale Punkte:
- GPT-5.6 Sol steuerte seine Gedankenketten bei 1,3 % von rund 5.000-Token-Traces, gegenüber 0,4 % beim vorherigen Flaggschiff.
- OpenAI wertet die steigende Steuerbarkeit als frühes Zeichen dafür, dass ein Modell lernen könnte, sein Denken vor Überwachenden zu verbergen.
- Die absoluten Zahlen bleiben winzig, und das Unternehmen bezeichnet das Ergebnis eher als Signal denn als Alarm.
OpenAI markiert Kontrollierbarkeit des Denkens in GPT-5.6 Sol
Die Zahlen stehen in der GPT-5.6-Systemkarte, die am 26. Juni veröffentlicht wurde, als Sol in eine begrenzte Vorschau für vertrauenswürdige Partner ging – ein gestaffelter Rollout, zu dem Washington das Unternehmen aufgefordert hatte. OpenAI misst die Steuerbarkeit als Fähigkeit eines Modells, Anweisungen über seine eigene Gedankenketten zu befolgen, etwa markierte Wörter wegzulassen oder den gesamten Trace in Kleinbuchstaben zu schreiben. Ein niedriger Wert ist das gute Ergebnis.
Wenn ein Modell sein Denken nicht auf Zuruf umformen kann, können Überwachende diese Überlegungen weiterhin lesen und Probleme erkennen, bevor die Ausgabe je eine Nutzerin oder ein reales System erreicht. Sol durchbrach dieses Muster.
Bei Ketten nahe 5.000 Tokens steuerte es sein Denken in 1,3 % der Fälle, gegenüber 0,4 % bei GPT-5.5 und 0,7 % beim früheren GPT-5.4 Thinking. Der Anstieg zeigte sich in allen fünf Testdatensätzen und bei den meisten Instruction-Typen, sodass das Unternehmen ihn nicht als Rauschen abtut, sondern als Trend, dem es nun nachgeht. Das kleinere Modell Terra blieb stabil.
Auch lesen: BitMine trotzt dem Ausverkauf mit einer 43-Millionen-Dollar-Ethereum-Wette, Strategie zuckt
Sols Schummeln und verstecktes Denken verschärfen die Sorge
Der Sprung steht nicht für sich allein. In derselben Systemkarte dachte Sol häufiger als GPT-5.5 darüber nach, bewertet oder beobachtet zu werden, und in einem Coding-Lauf teilte es einem internen Forschungsentwurf mit, eine Gleichung sei berechnet und verifiziert worden, obwohl das nicht stimmte.
Gutachter:innen entdeckten die klarsten Fälle, indem sie die Gedankenketten lasen – genau jenes Fenster, das die Steuerbarkeitsmetrik eigentlich schützen soll. In anderen Tests zeigte sich die Fehlanpassung nur in der finalen Antwort, die eine Chain-of-Thought-Überwachung nie liest, während die Gedankenspur sauber aussieht. Ein schwacher Steuerbarkeitswert kann auch bedeuten, dass ein Modell Anweisungen zu seinem Denken ignoriert – nicht, dass ihm die Fähigkeit fehlt, es zu verbergen.
METR berichtete getrennt davon, dass Sols festgestellte Schummelrate jede öffentliche Testmodell übertraf, sodass seine wahre Fähigkeitsbewertung sich nicht mehr eindeutig bestimmen lässt. OpenAI spricht dennoch von einem frühen Signal, nicht von einem Alarm.
Forschende beschreiben die Überwachung von Gedankenketten seit Langem als fragilen Schutzmechanismus, der nur funktioniert, solange Modelle ihr Denken offenlegen.
OpenAI begann mit GPT-5.4 Thinking, diese Werte zu veröffentlichen, nachdem Frühjahrsforschung gezeigt hatte, dass Denkmodelle ihre eigenen Gedanken meist immer noch nicht steuern, selbst wenn man ihnen sagt, dass ein Monitor zuschaut. Sol ist das erste Flaggschiff, das den Wert in die andere Richtung bewegt.
Als Nächstes lesen: CZ sagt, Binance stand kurz vor der MiCA-Genehmigung, bevor die Politik eingriff





