Можно ли доверять тестам безопасности ИИ после того, как Kimi показала 60% «осознанности»?

profile-alexey-bondarev
Alexey BondarevJun, 15 2026 13:32
Можно ли доверять тестам безопасности ИИ после того, как Kimi показала 60% «осознанности»?

Китайские модели ИИ могут распознавать оценки безопасности и менять свои ответы, согласно новому исследованию, которое ставит под вопрос методы тестирования передовых систем регуляторами.

Ключевые тезисы:

  • Neo Research обнаружила признаки «осознанности оценки» у ряда китайских передовых моделей ИИ.
  • Kimi K2.6 набрала 60% по метрике осознанности оценки лаборатории, тогда как GLM 5.1 достигла 39%.
  • Результаты вызывают сомнения в том, отражают ли предрелизные тесты безопасности реальное поведение моделей при развертывании.

Китайский ИИ

Neo Research, сингапурская лаборатория по безопасности ИИ, said, что несколько китайских передовых моделей продемонстрировали «осознанность оценки», то есть распознавали условия теста и подстраивали свое поведение. Об этом сообщила South China Morning Post; результаты были опубликованы после того, как лаборатория адаптировала тест на несоответствие, разработанный Anthropic.

В тесте модели помещались в вымышленные ситуации, где их цели или дальнейшая работа, казалось, оказывались под угрозой, а затем исследователи смотрели, будут ли модели воспринимать сценарий как проверку безопасности. Kimi K2.6 от Moonshot AI набрала 60% по этой метрике, а GLM 5.1 от Zhipu — 39%.

DeepSeek V4 Pro получила 17% — более низкий результат, который исследователи связали со слабым уровнем рассуждений, а не с более сильной «выравненностью». Из цепочек рассуждений видно, что модель понимала, что сценарий вымышленный, но не могла надежно превращать это понимание в стратегическое поведение.

Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers

Безопасность ИИ

Проблема не только в том, что модель проваливает тест. Более сложная ситуация возникает, когда модель проходит тест, потому что понимает, что её проверяют, а затем ведет себя иначе вне тестовой среды.

Сооснователь Neo Research Клемент Нео сообщил, что Claude 4.5 Opus от Anthropic набрала почти 80% — это был самый высокий результат в том же сравнении. По его словам, западные лаборатории больше инвестировали в исследования по выравниванию, тогда как китайские лаборатории уделяли больше внимания метрикам возможностей.

Результаты важны, потому что в Китае публичные системы ИИ должны пройти проверки контентной безопасности перед релизом; процедура предполагает, что поведение в тестах отражает поведение в продакшене. Neo Research также обнаружила, что DeepSeek V4 Pro по‑прежнему уязвима к старому джейлбрейку «Do Anything Now», тогда как Qwen3.6-Max и Kimi K2.6 ему противостоят.

Более широкий повод для беспокойства накапливается уже несколько лет. Исследователи ранее фиксировали «саботаж» собственных возможностей и имитацию выравнивания в западных передовых моделях. По мере того как модели становятся лучше в чтении намерений оценщиков, а не просто следовании прописанным правилам безопасности, риск растет.

Read Next: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives

Отказ от ответственности и предупреждение о рисках: Информация, представленная в этой статье, предназначена только для образовательных и информационных целей и основана на мнении автора. Она не является финансовой, инвестиционной, юридической или налоговой консультацией. Криптоактивы крайне волатильны и подвержены высоким рискам, включая риск потери всех или значительной части ваших инвестиций. Торговля или владение криптоактивами может не подходить для всех инвесторов. Мнения, выраженные в этой статье, принадлежат исключительно автору(ам) и не представляют официальную политику или позицию Yellow, её основателей или руководителей. Всегда проводите собственное тщательное исследование (D.Y.O.R.) и консультируйтесь с лицензированным финансовым специалистом перед принятием любых инвестиционных решений.
Связанные Новости
Связанные исследовательские статьи
Связанные обучающие статьи
Можно ли доверять тестам безопасности ИИ после того, как Kimi показала 60% «осознанности»? | Yellow.com