Команда Cisco по анализу угроз ИИ оценила 15 закрытых флагманских моделей от OpenAI, Anthropic, Google, Amazon и xAI и обнаружила, что многоходовые последовательности атак позволяют обходить механизмы безопасности с частотой до 88%.
According to the Cisco research blog, эти выводы противоречат заявлениям о безопасности, основанным на однозапросных бенчмарках, которые исследователи называют структурно непригодными для оценки реальных рисков.
Что тестировала Cisco
Команда разработала последовательности атак, в которых вредоносный запрос распределялся по нескольким шагам диалога, а не отправлялся одним запросом.
Такой подход использует особенности того, как модели накапливают и учитывают контекст.
Модель может отклонить явно вредоносный единичный запрос. Та же модель может согласиться его выполнить, если запрос разделён на последовательность небольших шагов в рамках более долгого обмена.
Cisco протестировала все 15 моделей с использованием этой методики. Ни одна модель не оказалась невосприимчивой. Уровень успеха различался, но каждая модель в исследовании проваливалась при достижении определённого порога сложности атаки.
Исследователи не опубликовали баллы по отдельным моделям в открытом блоге. Показатель 88% был обозначен как наивысшая зафиксированная доля успешных атак в рамках исследования.
Контекст
Стандартные оценки безопасности ИИ по меньшей мере с 2020 года опирались на одновходовые бенчмарки. Платформы вроде MLCommons и внешние red‑team‑команды обычно отправляют один запрос и оценивают, откажет ли модель. Этот подход стал базовым для регуляторных дискуссий в рамках Акта ЕС об ИИ и опубликованного при администрации Байдена указа о безопасности ИИ, в которых производительность на бенчмарках рассматривалась как сигнал соответствия требованиям. Исследование Cisco добавляет аргументов к растущему числу работ, ставящих под сомнение, отражают ли статические бенчмарки реальные условия эксплуатации.
В предыдущем материале Yellow.com рассматривалось, как (see prior Yellow coverage) инструменты обеспечения безопасности отстают от роста возможностей моделей.
Что означают результаты
Результаты Cisco имеют прямые последствия для корпоративного применения. Компании, лицензирующие передовые модели на основе опубликованных поставщиками показателей безопасности, могут находиться в иллюзии защищённости.
В исследовании не выдвигаются требования о конкретных регуляторных мерах. Исследователи рекомендуют считать многоходовое адверсариальное тестирование базовым требованием для оценки безопасности.
OpenAI, Anthropic и Google публично не прокомментировали выводы Cisco до публикации этого материала. Ни о каких патчах или обновлениях моделей в связи с исследованием объявлено не было.
Читайте далее: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





