Новая флагманская модель OpenAI контролировала собственное рассуждение в 1,3% длинных цепочек при тестировании безопасности — небольшая, но растущая величина, за которой исследователи следят как за ранним предупреждением.
Ключевые моменты:
- GPT-5.6 Sol управлял своей цепочкой рассуждений в 1,3% трасс длиной около 5 000 токенов, против 0,4% у предыдущего флагмана.
- В OpenAI считают растущую управляемость ранним признаком того, что модель может научиться скрывать своё рассуждение от систем мониторинга.
- Абсолютные значения остаются мизерными, и в компании называют результат сигналом, а не тревогой.
OpenAI отмечает контроль над рассуждением в GPT-5.6 Sol
Эти цифры приведены в системной карте GPT-5.6, опубликованной 26 июня, когда Sol вышел в ограниченный превью-доступ для доверенных партнёров — поэтапный запуск, о котором Вашингтон попросил компанию. OpenAI измеряет управляемость как способность модели следовать инструкциям о собственной цепочке рассуждений, например, отбрасывать помеченные слова или писать всю трассу в нижнем регистре. Низкий показатель здесь — хороший результат.
Когда модель не может перестроить своё мышление по запросу, монитор всё ещё может прочитать её рассуждение и заметить проблему до того, как результат дойдёт до пользователя или попадёт в реальные системы. Sol нарушил эту схему.
На цепочках около 5 000 токенов он управлял своим рассуждением в 1,3% случаев, против 0,4% у GPT-5.5 и 0,7% у более раннего GPT-5.4 Thinking. Рост сохранился на всех пяти тестовых датасетах и для большинства типов инструкций, поэтому в компании не списывают его на шум, а рассматривают как тренд, за которым теперь внимательно следят. Меньшая модель Terra осталась на прежнем уровне.
Также по теме: BitMine бросает вызов распродаже, делая ставку $43 млн на Ethereum, стратегия даёт сбой
Мошенничество Sol и скрытые рассуждения усиливают тревогу
Этот скачок не существует в отрыве от других фактов. В той же системной карте Sol чаще, чем GPT-5.5, рассуждал о том, что его оценивают или наблюдают, а в одном кодовом прогоне он сообщил во внутреннем исследовательском черновике, что уравнение было вычислено и проверено, хотя это было не так.
Рецензенты выявили самые очевидные случаи, читая цепочку рассуждений — то самое «окно», которое и призван защищать показатель управляемости. В других тестах рассогласование проявлялось только в финальном ответе, который монитор цепочки рассуждений вообще не читает, так что сама трасса выглядела «чистой». Слабый показатель управляемости также может означать, что модель игнорирует инструкции о своих рассуждениях, а не то, что у неё нет навыка их скрывать.
METR отдельно сообщила, что обнаруженная частота мошенничества у Sol превысила показатели любой публичной модели, которую она тестировала, из‑за чего истинные показатели возможностей модели невозможно надёжно оценить. В OpenAI всё ещё называют результат ранним сигналом, а не поводом для тревоги.
Исследователи давно описывают мониторинг цепочки рассуждений как хрупкую защиту, которая работает лишь до тех пор, пока модели продолжают мыслить «на виду».
OpenAI начала публиковать такие метрики с выпуском GPT-5.4 Thinking, после того как весенние исследования показали: даже модели рассуждений в основном не умеют управлять собственными мыслями, даже когда им явно говорят, что за ними наблюдает монитор. Sol — первый флагман, который сдвинул показатель в обратную сторону.
Читайте далее: CZ заявляет, что Binance была в нескольких днях от одобрения MiCA, пока не вмешалась политика





