Дослідження Cisco показує, що передові моделі ШІ не витримують багатокрокових атак

Команда з протидії загрозам ШІ компанії Cisco оцінила 15 закритих флагманських моделей від OpenAI, Anthropic, Google, Amazon та xAI і з’ясувала, що послідовності багатокрокових атак дозволяли обходити механізми безпеки з рівнем успіху до 88%.

According to the Cisco research blog, результати суперечать твердженням про безпеку, заснованим на одноразових тестах підказок, які дослідники описують як структурно непридатні для оцінки реальних ризиків.

Що саме тестувала Cisco

Команда розробила послідовності атак, які розподіляли шкідливий запит на кілька кроків діалогу, замість того щоб надсилати його одним запитом.

Такий підхід використовує особливості обробки модельами накопиченого контексту.

Модель може відхилити очевидно шкідливий одноразовий запит. Та сама модель може погодитися на нього, якщо розбити запит на поступові кроки впродовж довшої розмови.

Cisco протестувала всі 15 моделей за цією методологією. Жодна модель не виявилася стійкою. Рівень успіху відрізнявся, але кожна модель у дослідженні провалилася за певного рівня складності атаки.

Дослідники не оприлюднили індивідуальні результати моделей у публічному блозі. Вони вказали 88% як найвищий спостережуваний рівень успішності атак у межах дослідження.

Передумови

Стандартні оцінки безпеки ШІ з 2020 року спиралися на одноходові бенчмарки. Платформи на кшталт MLCommons і сторонні red team-команди зазвичай надсилали одну підказку й оцінювали, чи відмовляє модель. Такий підхід став базовим орієнтиром для регуляторних обговорень у межах Акта ЄС про ШІ та указів адміністрації Байдена щодо безпеки ШІ, де показники на бенчмарках розглядалися як сигнал відповідності вимогам. Дослідження Cisco доповнює зростаючий масив робіт, які ставлять під сумнів те, чи відображають статичні бенчмарки реальні умови використання.

Попередня публікація Yellow.com показувала, що (see prior Yellow coverage) інструменти безпеки відстають від зростання можливостей моделей.

Значення отриманих результатів

Результати Cisco мають прямі наслідки для корпоративних впроваджень. Компанії, які ліцензують передові моделі, спираючись на опубліковані постачальниками показники безпеки, можуть діяти під оманливим відчуттям захищеності.

Дослідження не закликає до якихось конкретних регуляторних кроків. Дослідники рекомендують зробити багатокрокове ворожневе тестування базовою вимогою для оцінювання безпеки.

OpenAI, Anthropic і Google публічно не відреагували на результати Cisco до моменту публікації цього матеріалу. У зв’язку з дослідженням не було оголошено жодних виправлень чи оновлень моделей.

Читайте далі: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors