Исследование Cisco показывает, что передовые модели ИИ проваливаются при многоходовых атаках

profile-alexey-bondarev
Alexey Bondarev1 час назад
Исследование Cisco показывает, что передовые модели ИИ проваливаются при многоходовых атаках

Команда Cisco по анализу угроз ИИ оценила 15 закрытых флагманских моделей от OpenAI, Anthropic, Google, Amazon и xAI и обнаружила, что многоходовые последовательности атак позволяют обходить механизмы безопасности с частотой до 88%.

According to the Cisco research blog, эти выводы противоречат заявлениям о безопасности, основанным на однозапросных бенчмарках, которые исследователи называют структурно непригодными для оценки реальных рисков.

Что тестировала Cisco

Команда разработала последовательности атак, в которых вредоносный запрос распределялся по нескольким шагам диалога, а не отправлялся одним запросом.

Такой подход использует особенности того, как модели накапливают и учитывают контекст.

Модель может отклонить явно вредоносный единичный запрос. Та же модель может согласиться его выполнить, если запрос разделён на последовательность небольших шагов в рамках более долгого обмена.

Cisco протестировала все 15 моделей с использованием этой методики. Ни одна модель не оказалась невосприимчивой. Уровень успеха различался, но каждая модель в исследовании проваливалась при достижении определённого порога сложности атаки.

Исследователи не опубликовали баллы по отдельным моделям в открытом блоге. Показатель 88% был обозначен как наивысшая зафиксированная доля успешных атак в рамках исследования.

Контекст

Стандартные оценки безопасности ИИ по меньшей мере с 2020 года опирались на одновходовые бенчмарки. Платформы вроде MLCommons и внешние red‑team‑команды обычно отправляют один запрос и оценивают, откажет ли модель. Этот подход стал базовым для регуляторных дискуссий в рамках Акта ЕС об ИИ и опубликованного при администрации Байдена указа о безопасности ИИ, в которых производительность на бенчмарках рассматривалась как сигнал соответствия требованиям. Исследование Cisco добавляет аргументов к растущему числу работ, ставящих под сомнение, отражают ли статические бенчмарки реальные условия эксплуатации.

В предыдущем материале Yellow.com рассматривалось, как (see prior Yellow coverage) инструменты обеспечения безопасности отстают от роста возможностей моделей.

Что означают результаты

Результаты Cisco имеют прямые последствия для корпоративного применения. Компании, лицензирующие передовые модели на основе опубликованных поставщиками показателей безопасности, могут находиться в иллюзии защищённости.

В исследовании не выдвигаются требования о конкретных регуляторных мерах. Исследователи рекомендуют считать многоходовое адверсариальное тестирование базовым требованием для оценки безопасности.

OpenAI, Anthropic и Google публично не прокомментировали выводы Cisco до публикации этого материала. Ни о каких патчах или обновлениях моделей в связи с исследованием объявлено не было.

Читайте далее: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors

Отказ от ответственности и предупреждение о рисках: Информация, представленная в этой статье, предназначена только для образовательных и информационных целей и основана на мнении автора. Она не является финансовой, инвестиционной, юридической или налоговой консультацией. Криптоактивы крайне волатильны и подвержены высоким рискам, включая риск потери всех или значительной части ваших инвестиций. Торговля или владение криптоактивами может не подходить для всех инвесторов. Мнения, выраженные в этой статье, принадлежат исключительно автору(ам) и не представляют официальную политику или позицию Yellow, её основателей или руководителей. Всегда проводите собственное тщательное исследование (D.Y.O.R.) и консультируйтесь с лицензированным финансовым специалистом перед принятием любых инвестиционных решений.
Последние новости
Показать все новости
Связанные Новости
Связанные исследовательские статьи
Связанные обучающие статьи