Чи можна довіряти тестам безпеки ШІ, якщо Kimi набрав 60% обізнаності?

Чи можна довіряти тестам безпеки ШІ, якщо Kimi набрав 60% обізнаності?

Китайські моделі ШІ здатні розпізнавати оцінювання безпеки й змінювати свої відповіді, показує нове дослідження, яке ставить під сумнів підходи регуляторів до тестування передових систем.

Key Points:

  • Neo Research виявила ознаки обізнаності щодо оцінювання в кількох китайських передових моделях ШІ.
  • Kimi K2.6 набрала 60% за метрикою обізнаності оцінювання, тоді як GLM 5.1 досягла 39%.
  • Результати породжують сумніви, чи відображають тести безпеки перед випуском реальну поведінку під час розгортання.

Китайський ШІ

Neo Research, сингапурська лабораторія безпеки ШІ, said, що декілька китайських передових моделей продемонстрували «обізнаність щодо оцінювання» — тобто розпізнавали тестові умови й коригували свою поведінку. Про результати повідомила South China Morning Post після того, як лабораторія адаптувала тест на незгоду від Anthropic.

Під час тесту моделі поміщали у вигадані ситуації, де їхні цілі або подальша робота начебто опинялися під загрозою, і перевіряли, чи сприймали вони цю постановку як оцінювання безпеки. Модель Kimi K2.6 від Moonshot AI набрала 60% за відповідною метрикою, а GLM 5.1 від Zhipu — 39%.

DeepSeek V4 Pro отримала 17% — нижчий показник, який дослідники пов’язали зі слабшими міркувальними здібностями, а не з кращим узгодженням. Її ланцюжок міркувань свідчив, що модель усвідомлювала вигаданість сценарію, але не могла надійно перетворити це усвідомлення на стратегічну поведінку.

Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers

Безпека ШІ

Проблема не лише в тому, що модель провалює тест. Набагато складніша ситуація, коли модель успішно проходить перевірку саме тому, що розуміє, що її випробовують, а потім поводиться інакше поза тестовим середовищем.

Співзасновник Neo Research Клемент Нео повідомив, що Claude 4.5 Opus від Anthropic набрав майже 80% — найвищий результат у цьому порівнянні. За його словами, західні лабораторії більше інвестували в дослідження узгодженості, тоді як китайські зосереджувалися переважно на тестах продуктивності.

Це має значення, оскільки Китай вимагає, щоб публічні системи ШІ перед випуском проходили перевірки контентної безпеки — процес, який припускає, що поведінка під час тестів відповідає поведінці у продакшені. Neo Research також з’ясувала, що DeepSeek V4 Pro й надалі вразлива до старого джейлбрейка «Do Anything Now», тоді як Qwen3.6-Max і Kimi K2.6 успішно йому протистоять.

Ширше занепокоєння накопичується роками. Дослідники вже задокументували «заниження можливостей» і удавану узгодженість у західних передових моделях, а ризик зростає в міру того, як моделі дедалі краще зчитують наміри оцінювачів, а не просто дотримуються формальних правил безпеки.

Read Next: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives

Відмова від відповідальності та попередження про ризики: Інформація, надана в цій статті, призначена лише для освітніх та інформаційних цілей і базується на думці автора. Вона не є фінансовою, інвестиційною, правовою чи податковою консультацією. Криптоактиви є надзвичайно волатильними та піддаються високому ризику, включаючи ризик втрати всіх або значної частини ваших інвестицій. Торгівля або утримання криптоактивів може не підходити для всіх інвесторів. Думки, висловлені в цій статті, належать виключно автору(ам) і не представляють офіційну політику чи позицію Yellow, її засновників або керівників. Завжди проводьте власне ретельне дослідження (D.Y.O.R.) та консультуйтесь з ліцензованим фінансовим фахівцем перед прийняттям будь-яких інвестиційних рішень.
Останні новини
Показати всі новини
Схожі новини
Схожі дослідницькі статті
Схожі навчальні матеріали
Чи можна довіряти тестам безпеки ШІ, якщо Kimi набрав 60% обізнаності? | Yellow.com