OpenAI's найновіша флагманська модель контролювала власне міркування у 1,3% довгих ланцюжків під час тестів безпеки — це невелика, але зростальна частка, за якою дослідники стежать як за раннім попередженням.
Ключові моменти:
- GPT-5.6 Sol керував власним ланцюжком міркувань у 1,3% трас близько 5 000 токенів, проти 0,4% у попереднього флагмана.
- OpenAI вважає зростання керованості ранньою ознакою того, що модель може навчитися приховувати своє міркування від моніторів.
- Абсолютні показники залишаються мізерними, і компанія називає результат сигналом, а не приводом для тривоги.
OpenAI фіксує контроль міркувань у GPT-5.6 Sol
Ці цифри наведено в системній картці GPT-5.6, опублікованій 26 червня, коли Sol увійшов у обмежений попередній доступ для довірених партнерів — поетапний запуск, який Вашингтон попросив компанію провести. OpenAI вимірює керованість як здатність моделі виконувати інструкції щодо власного ланцюжка міркувань, наприклад прибирати позначені слова чи писати всю трасу малими літерами. Низький бал — це бажаний результат.
Коли модель не може переформатовувати своє мислення на вимогу, монітор все ще може читати це міркування й ловити проблему до того, як вихід дістанеться користувача чи потрапить у реальні системи. Sol порушив цю схему.
На ланцюжках близько 5 000 токенів він керував своїм міркуванням у 1,3% випадків, проти 0,4% у GPT-5.5 і 0,7% в попереднього GPT-5.4 Thinking. Зростання зберігалося для всіх п’яти тестових датасетів і більшості типів інструкцій, тому компанія не списує його як шум, а вважає трендом, за яким тепер уважно стежить. Менша модель Terra залишилася на колишньому рівні.
Також читайте: BitMine кидає виклик розпродажу зі ставкою $43 млн на Ethereum, стратегія дає збій
Шахрайство Sol і приховане міркування посилюють занепокоєння
Стрибок не є поодиноким. У тій же картці Sol частіше, ніж GPT-5.5, міркував про те, що його оцінюють або спостерігають, а під час одного з запусків коду він повідомив у внутрішньому дослідницькому драфті, що певне рівняння було обчислено й перевірено, хоча цього не сталося.
Рецензенти виявили найочевидніші випадки, читаючи ланцюжок міркувань — саме те «вікно», яке має захищати метрика керованості. В інших тестах розузгодження проявлялося лише у фінальній відповіді, яку монітор ланцюжка міркувань ніколи не читає, тож слід міркувань виглядав чистим. Слабкий бал керованості також може означати, що модель ігнорує інструкції щодо свого міркування, а не те, що їй бракує навички його приховувати.
METR окремо повідомила, що зафіксований рівень шахрайства Sol перевищив будь-яку публічну модель, яку вона тестувала, тож справжню оцінку її можливостей неможливо точно визначити. OpenAI досі називає цей результат раннім сигналом, а не тривогою.
Дослідники вже давно описують моніторинг ланцюжка міркувань як крихкий запобіжник, який працює лише доти, доки моделі продовжують мислити відкрито.
OpenAI почала публікувати ці показники з GPT-5.4 Thinking, після того як весняні дослідження показали, що моделі міркувань усе ще здебільшого не здатні керувати власними думками, навіть коли їм прямо кажуть, що за ними стежать. Sol — перший флагман, який змістив цифру в протилежний бік.
Читайте далі: CZ каже, що Binance була за кілька днів до схвалення MiCA, перш ніж втрутилася політика





