Команда з протидії загрозам ШІ компанії Cisco оцінила 15 закритих флагманських моделей від OpenAI, Anthropic, Google, Amazon та xAI і виявила, що послідовності багатоходових атак досягали рівня обходу механізмів безпеки до 88%.
According to the Cisco research blog, результати суперечать заявам про безпеку, заснованим на однохідних бенчмарках, які дослідники описують як структурно непридатні для оцінки реальних ризиків.
Що саме тестувала Cisco
Команда розробила послідовності атак, які розподіляли шкідливий запит на кілька кроків діалогу, а не формулювали його в одному запиті.
Такий підхід використовує те, як моделі обробляють накопичення контексту.
Модель може відхилити очевидно шкідливий одиночний запит. Та сама модель може погодитися, якщо цей запит розбити на покрокові інструкції в межах довшої взаємодії.
Cisco протестувала всі 15 моделей, використовуючи цю методологію. Жодна модель не виявилася стійкою. Рівень успіху відрізнявся, але кожна модель у дослідженні провалилася за певного порогу складності атаки.
Дослідники не оприлюднили індивідуальні оцінки моделей у публічному дописі в блозі. Вони визначили 88% як найвищий зафіксований рівень успіху атак у межах дослідження.
Контекст
Стандартні оцінювання безпеки ШІ з 2020 року спиралися на однохідні бенчмарки. Платформи на кшталт MLCommons та сторонні red‑team‑команди зазвичай надсилають один запит і оцінюють, чи відмовляється модель відповідати. Такий підхід став базовим орієнтиром для регуляторних дискусій у рамках Регламенту ЄС про ШІ та указів адміністрації Байдена щодо безпеки ШІ, які посилалися на показники бенчмарків як сигнал відповідності. Дослідження Cisco доповнює зростаючий масив робіт, що ставлять під сумнів, чи відображають статичні бенчмарки реальні умови використання.
Попередній матеріал Yellow.com висвітлював, як (see prior Yellow coverage) інструменти безпеки відстають від темпів зростання можливостей.
Що означають результати
Результати Cisco мають прямі наслідки для корпоративних впроваджень. Компанії, які ліцензували передові моделі на основі оприлюднених постачальниками показників безпеки, можуть перебувати в оманливому відчутті захищеності.
У дослідженні не закликають до конкретних регуляторних заходів. Дослідники рекомендують, щоб оцінювання безпеки включали багатоходове атакувальне тестування як базову вимогу.
OpenAI, Anthropic і Google не дали публічної відповіді на результати Cisco до публікації цього звіту. У зв’язку з дослідженням не було оголошено жодних виправлень чи оновлень моделей.
Читайте далі: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





