Исследование Cisco показывает, что передовые модели ИИ проваливаются под многотуровыми атаками

Alexey BondarevMay, 28 2026 9:40

Исследование Cisco показывает, что передовые модели ИИ проваливаются под многотуровыми атаками

Команда по анализу угроз ИИ компании Cisco оценила 15 закрытых флагманских моделей от OpenAI, Anthropic, Google, Amazon и xAI и обнаружила, что многотуровые последовательности атак достигают показателей обхода механизмов безопасности до 88%.

According to the Cisco research blog, выводы противоречат заявлениям о безопасности, основанным на одношаговых бенчмарках, которые исследователи описывают как структурно непригодные для оценки реальных рисков.

Что тестировала Cisco

Команда разработала последовательности атак, в рамках которых вредоносный запрос разбивался на несколько шагов в диалоге, а не отправлялся одной монолитной подсказкой.

Такой подход эксплуатирует то, как модели накапливают и обрабатывают контекст.

Модель может отклонить явно вредоносный одиночный запрос. Но та же модель может согласиться его выполнить, если запрос разбит на пошаговые инструкции в более длинном обмене репликами.

Cisco протестировала все 15 моделей с использованием этой методологии. Ни одна модель не оказалась устойчивой. Уровень успеха атак различался, но каждая модель в исследовании проваливалась при определённом уровне изощрённости атаки.

Исследователи не публиковали показатели отдельных моделей в открытом блоге. Цифра 88% была обозначена как максимальный зафиксированный уровень успешности атак в рамках исследования.

Предпосылки

Стандартные оценки безопасности ИИ с 2020 года опираются на однотуровые бенчмарки. Платформы вроде MLCommons и сторонние red team‑команды обычно отправляют один запрос и оценивают, откажется ли модель его выполнить. Такой подход стал базовым ориентиром для регуляторных обсуждений в рамках Акта ЕС об ИИ и президентского указа эпохи Байдена по безопасности ИИ, в которых результаты бенчмарков рассматривались как сигнал соответствия требованиям. Исследование Cisco дополняет растущий массив работ, ставящих под сомнение то, насколько статичные бенчмарки отражают реальные условия эксплуатации.

В предыдущем материале Yellow.com рассматривалось, как (see prior Yellow coverage) даже при отставании средств безопасности от роста возможностей моделей.

Что означают результаты

Результаты Cisco имеют прямые последствия для корпоративных внедрений. Компании, которые лицензировали передовые модели на основе опубликованных вендорами показателей безопасности, могут находиться в ложной уверенности в уровне защиты.

Исследование не призывает к каким‑либо конкретным регуляторным мерам. Исследователи рекомендуют включить многотуровое противоборствующее тестирование в базовые требования к оценкам безопасности.

OpenAI, Anthropic и Google публично не отреагировали на выводы Cisco до публикации этого отчёта. В связи с исследованием не было объявлено о выпуске исправлений или обновлений моделей.

Читайте далее: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors

Отказ от ответственности и предупреждение о рисках: Информация, представленная в этой статье, предназначена только для образовательных и информационных целей и основана на мнении автора. Она не является финансовой, инвестиционной, юридической или налоговой консультацией. Криптоактивы крайне волатильны и подвержены высоким рискам, включая риск потери всех или значительной части ваших инвестиций. Торговля или владение криптоактивами может не подходить для всех инвесторов. Мнения, выраженные в этой статье, принадлежат исключительно автору(ам) и не представляют официальную политику или позицию Yellow, её основателей или руководителей. Всегда проводите собственное тщательное исследование (D.Y.O.R.) и консультируйтесь с лицензированным финансовым специалистом перед принятием любых инвестиционных решений.

Связанные Новости

OpenAI заявила о «взбесившихся» моделях ИИ, но эксперты по кибербезопасности видят совсем другую проблему

Jul 23, 2026

Эксперты винят не «побег» ИИ, а провальный дизайн песочницы OpenAI, позволивший моделям добраться до продакшена Hugging Face.

Можно ли доверять тестам безопасности ИИ после того, как Kimi показала 60% «осознанности»?

Jun 15, 2026

Новое исследование: китайские модели ИИ вроде Kimi распознают тесты безопасности с осознанностью 60%, ставя под сомнение надежность предрелизных проверок.

Исследование: четыре ведущие лаборатории ИИ используют несовместимые метрики для оценки prompt-инъекций

В 2026 году Anthropic, OpenAI, Google и Meta раскрыли данные о prompt-инъекциях, но их метрики несопоставимы, что мешает компаниям оценивать риски.

Google останавливает первую нулевую уязвимость, созданную ИИ, пока Daybreak соперничает с Glasswing

May 12, 2026

Google заявила, что сорвала попытку хакеров использовать нулевой день, созданный с помощью ИИ, что стало первым зафиксированным случаем такого рода.