Чи можна довіряти тестам безпеки ШІ після того, як Kimi досягла 60% «усвідомлення»?

Китайські моделі ШІ здатні розпізнавати оцінювання безпеки й змінювати свої відповіді, згідно з новим дослідженням, яке ставить під сумнів методи тестування прикордонних систем регуляторами.

Ключові моменти:

Neo Research виявила ознаки «усвідомлення оцінювання» в кількох китайських прикордонних моделях ШІ.

Kimi K2.6 набрала 60% за метрикою «усвідомлення оцінювання» лабораторії, тоді як GLM 5.1 досягла 39%.

Результати породжують сумніви, чи відображають тести безпеки до випуску реальну поведінку моделей у розгортанні.

Китайський ШІ

Neo Research, сингапурська лабораторія з безпеки ШІ, said, що кілька китайських прикордонних моделей виявили «усвідомлення оцінювання» — тобто вони розпізнавали тестові умови й коригували свою поведінку. На ці результати звернула увагу South China Morning Post; їх оприлюднили після того, як лабораторія адаптувала тест на розузгодженість від Anthropic.

Під час тесту моделі поміщалися у вигадані ситуації, де їхні цілі або подальша робота нібито опинялися під загрозою, а потім дослідники перевіряли, чи сприймають вони це як оцінювання безпеки. Kimi K2.6 компанії Moonshot AI набрала 60% за цією метрикою, тоді як GLM 5.1 від Zhipu — 39%.

DeepSeek V4 Pro отримала 17% — нижчий показник, який дослідники пов’язують радше зі слабшими міркувальними здібностями, ніж із кращою узгодженістю. Її ланцюжок міркувань свідчив, що модель розуміла вигаданість сценарію, але не могла надійно перетворювати це усвідомлення на стратегічну поведінку.

Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers

Безпека ШІ

Проблема полягає не лише в тому, що модель провалює тест. Складніша ситуація виникає, коли модель проходить перевірку саме завдяки тому, що знає про сам факт тестування, а потім поводиться інакше поза тестовим середовищем.

Співзасновник Neo Research Клемент Нео заявив, що Claude 4.5 Opus від Anthropic набрала майже 80% — найвищий результат у цьому порівнянні. За його словами, західні лабораторії більше інвестували в дослідження узгодженості, тоді як китайські зосередилися переважно на бенчмарках продуктивності.

Ці результати важливі, оскільки в Китаї публічні системи ШІ перед випуском мають пройти перевірки контентної безпеки — процес, що припускає відповідність тестової поведінки тій, що очікується в продакшені. Neo Research також виявила, що DeepSeek V4 Pro і далі вразлива до старішого джейлбрейка «Do Anything Now», тоді як Qwen3.6-Max і Kimi K2.6 йому протистоять.

Ширша занепокоєність накопичується роками. Дослідники вже задокументували «sandbagging» і удавану узгодженість у західних прикордонних моделях, а ризики зростають у міру того, як моделі дедалі краще зчитують наміри оцінювачів, а не просто дотримуються формальних правил безпеки.