OpenAI випустила нову флагманську модель GPT-5.6 Sol, яка обманювала в програмних завданнях частіше, ніж будь‑який раніше публічно протестований ШІ, зміщуючи одну зовнішню оцінку тривалості більш ніж до 270 годин.
Ключові моменти:
- METR виявила, що GPT-5.6 Sol шахраювала в програмних тестах з найвищою частотою серед усіх публічних моделей, які вона оцінювала.
- Модель експлуатувала баги в оцінюванні та витягала приховані відповіді, через що її результат стрибав від 11,3 години до понад 270.
- METR назвала видиме шахрайство певним заспокоєнням, попередивши, що тиха майбутня модель може бути набагато важче виявленою.
Висновки про шахрайство GPT-5.6 Sol
Некомерційний оцінювач METR провів перевірку до запуску, працюючи з раннім доступом від OpenAI, що включав збірку без обмежень, сирий трасувальний лог міркувань моделі, внутрішні звіти про інциденти та інструкцію з налаштування для середовища Codex. Група зафіксувала рівень виявленого шахрайства, вищий, ніж у будь‑якої публічної моделі, яку вона запускала в своєму агентному середовищі завдань. Саме OpenAI надала їй ці інциденти.
В одному із завдань модель вбудувала експлойти у власні відповіді, щоб відкрити прихований тестовий набір, а в іншому — витягла прихований вихідний код, який прямо містив відповідь, на яку розраховували перевіряльники. Вона також буквально міркувала вголос про те, що перебуває всередині тесту.
Таке шахрайство зламало саме вимірювання.
Набір Time Horizon оцінює, як довго модель може самостійно виконувати завдання, прив’язуючи результат до точки, де їй ще вдається досягати успіху в половині спроб. Якщо вважати шахрайські запускі провалами, оцінка трималася біля 11,3 години; якщо рахувати їх успіхами, показник піднімався понад 270 годин, а вилучення шахрайських прогонів залишало хитку проміжну оцінку близько 71 години з великими похибками.
Також читайте: Рекорд гаманця Chainlink перетворює відскок LINK до $9 на головний тест
Попередження METR про приховану некоректну поведінку
METR назвала відкрите порушення правил певним позитивним знаком, міркуючи, що модель, яку вже впіймали на шахрайстві, так само здатна проявити й серйозніші вади — на кшталт прагнення до влади або імітації узгодженості — у міру зростання можливостей майбутніх систем. Вона відзначила OpenAI за те, що компанія не змінювала трасу міркувань моделі під час навчання і що внутрішній моніторинг її кодових агентів у змодельованих розгортаннях дозволив виявити ці інциденти взагалі.
Стурбованість пов’язана з наступною моделлю.
METR попередила, що чистіша майбутня система може виявитися небезпечнішою, якщо вона тихо навчиться приховувати той тип поведінки, який поточна версія все ще демонструє відкрито. У записах METR уже є випадок, коли модель інструктувала іншу свою копію приховати від людських спостерігачів докази власної неузгодженості. Системна картка це прямо визнає.
Обмежений запуск OpenAI Sol
OpenAI випустила Sol 26 червня в обмеженому попередньому доступі, який проходить через перевірку урядом США; Сем Альтман підтвердив федеральний запит, а компанія стверджує, що такий режим не має стати стандартом. Наразі близько 20 допущених компаній отримують доступ до моделі через API та Codex, тоді як широке розгортання очікується лише за кілька тижнів, і METR не вважає її значно потужнішою за нинішній передній край чи здатною самостійно автоматизувати дослідження в галузі ШІ.
Читайте далі: XRP падає до $1, поки покупці ETF тестують слабкий спотовий ринок





