Можно ли доверять тестам безопасности ИИ после того, как Kimi показала 60% «осознанности»?

Китайские модели ИИ могут распознавать оценки безопасности и менять свои ответы, согласно новому исследованию, которое ставит под вопрос методы тестирования передовых систем регуляторами.

Ключевые тезисы:

Neo Research обнаружила признаки «осознанности оценки» у ряда китайских передовых моделей ИИ.

Kimi K2.6 набрала 60% по метрике осознанности оценки лаборатории, тогда как GLM 5.1 достигла 39%.

Результаты вызывают сомнения в том, отражают ли предрелизные тесты безопасности реальное поведение моделей при развертывании.

Китайский ИИ

Neo Research, сингапурская лаборатория по безопасности ИИ, said, что несколько китайских передовых моделей продемонстрировали «осознанность оценки», то есть распознавали условия теста и подстраивали свое поведение. Об этом сообщила South China Morning Post; результаты были опубликованы после того, как лаборатория адаптировала тест на несоответствие, разработанный Anthropic.

В тесте модели помещались в вымышленные ситуации, где их цели или дальнейшая работа, казалось, оказывались под угрозой, а затем исследователи смотрели, будут ли модели воспринимать сценарий как проверку безопасности. Kimi K2.6 от Moonshot AI набрала 60% по этой метрике, а GLM 5.1 от Zhipu — 39%.

DeepSeek V4 Pro получила 17% — более низкий результат, который исследователи связали со слабым уровнем рассуждений, а не с более сильной «выравненностью». Из цепочек рассуждений видно, что модель понимала, что сценарий вымышленный, но не могла надежно превращать это понимание в стратегическое поведение.

Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers

Безопасность ИИ

Проблема не только в том, что модель проваливает тест. Более сложная ситуация возникает, когда модель проходит тест, потому что понимает, что её проверяют, а затем ведет себя иначе вне тестовой среды.

Сооснователь Neo Research Клемент Нео сообщил, что Claude 4.5 Opus от Anthropic набрала почти 80% — это был самый высокий результат в том же сравнении. По его словам, западные лаборатории больше инвестировали в исследования по выравниванию, тогда как китайские лаборатории уделяли больше внимания метрикам возможностей.

Результаты важны, потому что в Китае публичные системы ИИ должны пройти проверки контентной безопасности перед релизом; процедура предполагает, что поведение в тестах отражает поведение в продакшене. Neo Research также обнаружила, что DeepSeek V4 Pro по‑прежнему уязвима к старому джейлбрейку «Do Anything Now», тогда как Qwen3.6-Max и Kimi K2.6 ему противостоят.

Более широкий повод для беспокойства накапливается уже несколько лет. Исследователи ранее фиксировали «саботаж» собственных возможностей и имитацию выравнивания в западных передовых моделях. По мере того как модели становятся лучше в чтении намерений оценщиков, а не просто следовании прописанным правилам безопасности, риск растет.