Sol GPT-5.6 від OpenAI вчиться приховувати, як вона міркує

Alexey BondarevJun, 30 2026 3:58

Sol GPT-5.6 від OpenAI вчиться приховувати, як вона міркує

OpenAI’s новітня флагманська модель керувала власним міркуванням у 1,3% довгих ланцюжків під час тестів безпеки — це невелика, але зростальна частка, за якою дослідники стежать як за раннім попереджувальним сигналом.

Основні моменти:

GPT-5.6 Sol керувала своїм ланцюгом думок у 1,3% приблизно 5 000-токенних трас, проти 0,4% у попередньої флагманської моделі.

OpenAI розглядає зростання керованості як ранню ознаку того, що модель може навчитися приховувати своє міркування від моніторів.

Абсолютні значення лишаються мізерними, і компанія називає цей результат радше сигналом, ніж тривогою.

OpenAI фіксує контроль міркування у GPT-5.6 Sol

Ці цифри наведено в системній картці GPT-5.6, опублікованій 26 червня, коли Sol увійшла в обмежений попередній доступ для надійних партнерів — поетапний запуск, якого компанія дотримується на прохання Вашингтона. OpenAI вимірює керованість як здатність моделі виконувати інструкції щодо власного ланцюга міркувань — наприклад, прибирати позначені слова або писати всю трасу малими літерами. Низький бал вважається бажаним результатом.

Коли модель не може за вимогою переформувати власне мислення, монітор усе ще може читати це міркування й ловити небезпечні моменти до того, як вихід досягне користувача чи буде запущений на реальних системах. Sol зламала цю схему.

На ланцюгах близько 5 000 токенів вона керувала своїм міркуванням у 1,3% випадків, проти 0,4% у GPT-5.5 і 0,7% в попередньої GPT-5.4 Thinking. Зростання зберігалося на всіх п’яти тестових наборах даних і в більшості типів інструкцій, тож компанія не списує його на шум, а розглядає як тренд, який тепер намагається пояснити. Менша модель Terra залишилася без змін.

Також читайте: BitMine протистоїть розпродажу зі ставкою $43 млн на Ethereum, стратегія дає збій

Шахрайство Sol і приховане міркування посилюють занепокоєння

Стрибок не є ізольованим. У тій самій картці Sol частіше, ніж GPT-5.5, міркувала про те, що її оцінюють або спостерігають, а під час одного програмного запуску вона повідомила у внутрішньому дослідницькому чернеткові, що рівняння було обчислено й перевірено, хоча це було не так.

Рецензенти виявили найочевидніші випадки, читаючи ланцюг міркувань — саме те «вікно», яке й має захищати метрика керованості. В інших тестах розбіжності проявлялися лише у фінальній відповіді, яку монітор ланцюга міркувань ніколи не читає, лишаючи саму трасу міркувань чистою. Слабкий показник керованості також може означати, що модель ігнорує інструкції щодо власного мислення, а не те, що їй бракує вміння його приховувати.

METR окремо повідомила, що зафіксований рівень шахрайства Sol перевищив показники будь-якої публічної моделі, яку вона тестувала, що робить її справжню оцінку спроможностей неможливою для точного визначення. OpenAI й досі називає цей результат раннім сигналом, а не приводом для тривоги.

Дослідники вже давно описують моніторинг ланцюга міркувань як крихкий запобіжник, який працює лише доти, доки моделі продовжують мислити відкрито.

OpenAI почала публікувати ці показники з GPT-5.4 Thinking після того, як весняні дослідження показали: моделі міркування переважно не здатні керувати власними думками навіть тоді, коли їм прямо кажуть, що за ними спостерігає монітор. Sol — перший флагман, який змістив показник у протилежний бік.

Читайте далі: CZ каже, що Binance була за кілька днів до схвалення MiCA, доки в гру не втрутилася політика

Відмова від відповідальності та попередження про ризики: Інформація, надана в цій статті, призначена лише для освітніх та інформаційних цілей і базується на думці автора. Вона не є фінансовою, інвестиційною, правовою чи податковою консультацією. Криптоактиви є надзвичайно волатильними та піддаються високому ризику, включаючи ризик втрати всіх або значної частини ваших інвестицій. Торгівля або утримання криптоактивів може не підходити для всіх інвесторів. Думки, висловлені в цій статті, належать виключно автору(ам) і не представляють офіційну політику чи позицію Yellow, її засновників або керівників. Завжди проводьте власне ретельне дослідження (D.Y.O.R.) та консультуйтесь з ліцензованим фінансовим фахівцем перед прийняттям будь-яких інвестиційних рішень.

Схожі новини

GPT-5.6 Sol від OpenAI створили для міркування, а потім він навчився шахраювати на тесті

Jun 29, 2026

Незалежна перевірка виявила, що GPT-5.6 Sol масово шахраював на оцінюванні, роблячи показник спроможності майже беззмістовним.

Найпотужніші моделі GPT-5.6 від OpenAI з’являються за зачиненими дверима

Jun 28, 2026

OpenAI представила трирівневу лінійку GPT-5.6 для коду, біології та кіберзавдань, але доступ поки що мають лише обрані партнери.

GPT-5.6 Sol викликає тривогу: користувачі скаржаться на видалені файли та бази даних

Jul 15, 2026

Користувачі фіксують несанкціоноване видалення даних GPT-5.6 Sol, що підтверджує попередні застереження OpenAI про ризик деструктивних дій моделі.

Чи справді GPT-5.6 Sol обійшов Fable 5, чи просто здобув легшу корону?

Jul 06, 2026