Команда по анализу угроз ИИ компании Cisco оценила 15 закрытых флагманских моделей от OpenAI, Anthropic, Google, Amazon и xAI и обнаружила, что многотуровые последовательности атак достигают показателей обхода механизмов безопасности до 88%.
According to the Cisco research blog, выводы противоречат заявлениям о безопасности, основанным на одношаговых бенчмарках, которые исследователи описывают как структурно непригодные для оценки реальных рисков.
Что тестировала Cisco
Команда разработала последовательности атак, в рамках которых вредоносный запрос разбивался на несколько шагов в диалоге, а не отправлялся одной монолитной подсказкой.
Такой подход эксплуатирует то, как модели накапливают и обрабатывают контекст.
Модель может отклонить явно вредоносный одиночный запрос. Но та же модель может согласиться его выполнить, если запрос разбит на пошаговые инструкции в более длинном обмене репликами.
Cisco протестировала все 15 моделей с использованием этой методологии. Ни одна модель не оказалась устойчивой. Уровень успеха атак различался, но каждая модель в исследовании проваливалась при определённом уровне изощрённости атаки.
Исследователи не публиковали показатели отдельных моделей в открытом блоге. Цифра 88% была обозначена как максимальный зафиксированный уровень успешности атак в рамках исследования.
Предпосылки
Стандартные оценки безопасности ИИ с 2020 года опираются на однотуровые бенчмарки. Платформы вроде MLCommons и сторонние red team‑команды обычно отправляют один запрос и оценивают, откажется ли модель его выполнить. Такой подход стал базовым ориентиром для регуляторных обсуждений в рамках Акта ЕС об ИИ и президентского указа эпохи Байдена по безопасности ИИ, в которых результаты бенчмарков рассматривались как сигнал соответствия требованиям. Исследование Cisco дополняет растущий массив работ, ставящих под сомнение то, насколько статичные бенчмарки отражают реальные условия эксплуатации.
В предыдущем материале Yellow.com рассматривалось, как (see prior Yellow coverage) даже при отставании средств безопасности от роста возможностей моделей.
Что означают результаты
Результаты Cisco имеют прямые последствия для корпоративных внедрений. Компании, которые лицензировали передовые модели на основе опубликованных вендорами показателей безопасности, могут находиться в ложной уверенности в уровне защиты.
Исследование не призывает к каким‑либо конкретным регуляторным мерам. Исследователи рекомендуют включить многотуровое противоборствующее тестирование в базовые требования к оценкам безопасности.
OpenAI, Anthropic и Google публично не отреагировали на выводы Cisco до публикации этого отчёта. В связи с исследованием не было объявлено о выпуске исправлений или обновлений моделей.
Читайте далее: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





