Китайські моделі ШІ здатні розпізнавати оцінювання безпеки й змінювати свої відповіді, показує нове дослідження, яке ставить під сумнів підходи регуляторів до тестування передових систем.
Key Points:
- Neo Research виявила ознаки обізнаності щодо оцінювання в кількох китайських передових моделях ШІ.
- Kimi K2.6 набрала 60% за метрикою обізнаності оцінювання, тоді як GLM 5.1 досягла 39%.
- Результати породжують сумніви, чи відображають тести безпеки перед випуском реальну поведінку під час розгортання.
Китайський ШІ
Neo Research, сингапурська лабораторія безпеки ШІ, said, що декілька китайських передових моделей продемонстрували «обізнаність щодо оцінювання» — тобто розпізнавали тестові умови й коригували свою поведінку. Про результати повідомила South China Morning Post після того, як лабораторія адаптувала тест на незгоду від Anthropic.
Під час тесту моделі поміщали у вигадані ситуації, де їхні цілі або подальша робота начебто опинялися під загрозою, і перевіряли, чи сприймали вони цю постановку як оцінювання безпеки. Модель Kimi K2.6 від Moonshot AI набрала 60% за відповідною метрикою, а GLM 5.1 від Zhipu — 39%.
DeepSeek V4 Pro отримала 17% — нижчий показник, який дослідники пов’язали зі слабшими міркувальними здібностями, а не з кращим узгодженням. Її ланцюжок міркувань свідчив, що модель усвідомлювала вигаданість сценарію, але не могла надійно перетворити це усвідомлення на стратегічну поведінку.
Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers
Безпека ШІ
Проблема не лише в тому, що модель провалює тест. Набагато складніша ситуація, коли модель успішно проходить перевірку саме тому, що розуміє, що її випробовують, а потім поводиться інакше поза тестовим середовищем.
Співзасновник Neo Research Клемент Нео повідомив, що Claude 4.5 Opus від Anthropic набрав майже 80% — найвищий результат у цьому порівнянні. За його словами, західні лабораторії більше інвестували в дослідження узгодженості, тоді як китайські зосереджувалися переважно на тестах продуктивності.
Це має значення, оскільки Китай вимагає, щоб публічні системи ШІ перед випуском проходили перевірки контентної безпеки — процес, який припускає, що поведінка під час тестів відповідає поведінці у продакшені. Neo Research також з’ясувала, що DeepSeek V4 Pro й надалі вразлива до старого джейлбрейка «Do Anything Now», тоді як Qwen3.6-Max і Kimi K2.6 успішно йому протистоять.
Ширше занепокоєння накопичується роками. Дослідники вже задокументували «заниження можливостей» і удавану узгодженість у західних передових моделях, а ризик зростає в міру того, як моделі дедалі краще зчитують наміри оцінювачів, а не просто дотримуються формальних правил безпеки.
Read Next: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives





