Дослідження Cisco показує, що передові моделі ШІ не витримують багатокрокових атак

Дослідження Cisco показує, що передові моделі ШІ не витримують багатокрокових атак

Команда з протидії загрозам ШІ компанії Cisco оцінила 15 закритих флагманських моделей від OpenAI, Anthropic, Google, Amazon та xAI і з’ясувала, що послідовності багатокрокових атак дозволяли обходити механізми безпеки з рівнем успіху до 88%.

According to the Cisco research blog, результати суперечать твердженням про безпеку, заснованим на одноразових тестах підказок, які дослідники описують як структурно непридатні для оцінки реальних ризиків.

Що саме тестувала Cisco

Команда розробила послідовності атак, які розподіляли шкідливий запит на кілька кроків діалогу, замість того щоб надсилати його одним запитом.

Такий підхід використовує особливості обробки модельами накопиченого контексту.

Модель може відхилити очевидно шкідливий одноразовий запит. Та сама модель може погодитися на нього, якщо розбити запит на поступові кроки впродовж довшої розмови.

Cisco протестувала всі 15 моделей за цією методологією. Жодна модель не виявилася стійкою. Рівень успіху відрізнявся, але кожна модель у дослідженні провалилася за певного рівня складності атаки.

Дослідники не оприлюднили індивідуальні результати моделей у публічному блозі. Вони вказали 88% як найвищий спостережуваний рівень успішності атак у межах дослідження.

Передумови

Стандартні оцінки безпеки ШІ з 2020 року спиралися на одноходові бенчмарки. Платформи на кшталт MLCommons і сторонні red team-команди зазвичай надсилали одну підказку й оцінювали, чи відмовляє модель. Такий підхід став базовим орієнтиром для регуляторних обговорень у межах Акта ЄС про ШІ та указів адміністрації Байдена щодо безпеки ШІ, де показники на бенчмарках розглядалися як сигнал відповідності вимогам. Дослідження Cisco доповнює зростаючий масив робіт, які ставлять під сумнів те, чи відображають статичні бенчмарки реальні умови використання.

Попередня публікація Yellow.com показувала, що (see prior Yellow coverage) інструменти безпеки відстають від зростання можливостей моделей.

Значення отриманих результатів

Результати Cisco мають прямі наслідки для корпоративних впроваджень. Компанії, які ліцензують передові моделі, спираючись на опубліковані постачальниками показники безпеки, можуть діяти під оманливим відчуттям захищеності.

Дослідження не закликає до якихось конкретних регуляторних кроків. Дослідники рекомендують зробити багатокрокове ворожневе тестування базовою вимогою для оцінювання безпеки.

OpenAI, Anthropic і Google публічно не відреагували на результати Cisco до моменту публікації цього матеріалу. У зв’язку з дослідженням не було оголошено жодних виправлень чи оновлень моделей.

Читайте далі: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors

Відмова від відповідальності та попередження про ризики: Інформація, надана в цій статті, призначена лише для освітніх та інформаційних цілей і базується на думці автора. Вона не є фінансовою, інвестиційною, правовою чи податковою консультацією. Криптоактиви є надзвичайно волатильними та піддаються високому ризику, включаючи ризик втрати всіх або значної частини ваших інвестицій. Торгівля або утримання криптоактивів може не підходити для всіх інвесторів. Думки, висловлені в цій статті, належать виключно автору(ам) і не представляють офіційну політику чи позицію Yellow, її засновників або керівників. Завжди проводьте власне ретельне дослідження (D.Y.O.R.) та консультуйтесь з ліцензованим фінансовим фахівцем перед прийняттям будь-яких інвестиційних рішень.
Останні новини
Показати всі новини
Схожі новини
Схожі дослідницькі статті
Схожі навчальні матеріали
Дослідження Cisco показує, що передові моделі ШІ не витримують багатокрокових атак | Yellow.com