Zespół ds. wywiadu zagrożeń AI w firmie Cisco ocenił 15 zamkniętych, flagowych modeli od OpenAI, Anthropic, Google, Amazon i xAI, stwierdzając, że sekwencje wieloturowych ataków osiągały współczynniki ominięcia zabezpieczeń sięgające 88%.
According to the Cisco research blog, wyniki te stoją w sprzeczności z deklaracjami bezpieczeństwa opartymi na benchmarkach z pojedynczym promptem, które badacze opisują jako strukturalnie niewystarczające do oceny realnego ryzyka.
Co testowało Cisco
Zespół zaprojektował sekwencje ataków, które rozkładały szkodliwe żądanie na wiele tur rozmowy, zamiast formułować je w jednym promptcie.
To podejście wykorzystuje sposób, w jaki modele przetwarzają akumulujący się kontekst.
Model może odrzucić jednoznacznie szkodliwe, pojedyncze żądanie. Ten sam model może się podporządkować, gdy to żądanie zostanie rozbite na kolejne kroki w dłuższej wymianie.
Cisco przetestowało wszystkie 15 modeli z użyciem tej metodyki. Żaden model nie okazał się odporny. Skuteczność ataków była zróżnicowana, ale każdy model w badaniu zawiódł po osiągnięciu pewnego poziomu wyrafinowania ataku.
Badacze nie opublikowali w publicznym wpisie na blogu wyników dla poszczególnych modeli. Wskazali natomiast 88% jako najwyższy zaobserwowany współczynnik powodzenia w całym badaniu.
Tło
Standardowe ewaluacje bezpieczeństwa AI opierają się na benchmarkach jednoturowych co najmniej od 2020 roku. Platformy takie jak MLCommons oraz zewnętrzne zespoły red teamingowe zazwyczaj wysyłają jeden prompt i oceniają, czy model odmówił odpowiedzi. To podejście stało się punktem odniesienia w dyskusjach regulacyjnych w ramach unijnej ustawy o AI (EU AI Act) oraz prezydenckiego rozporządzenia wykonawczego w USA dotyczącego bezpieczeństwa AI z czasów administracji Bidena, w których wyniki benchmarków były traktowane jako sygnał zgodności. Badania Cisco wpisują się w rosnący korpus prac kwestionujących, czy statyczne benchmarki odzwierciedlają warunki wdrożeniowe.
Wcześniejszy materiał Yellow.com omawiał, jak (see prior Yellow coverage) narzędzia bezpieczeństwa nie nadążają za tempem wzrostu możliwości modeli.
Co oznaczają wyniki
Wyniki Cisco mają bezpośrednie konsekwencje dla wdrożeń korporacyjnych. Firmy, które licencjonowały modele frontier na podstawie publikowanych przez dostawców wyników bezpieczeństwa, mogą działać w fałszywym poczuciu ochrony.
Badanie nie wzywa do żadnej konkretnej reakcji regulacyjnej. Badacze zalecają, by ewaluacje bezpieczeństwa obejmowały wieloturowe testy adwersarialne jako wymóg podstawowy.
OpenAI, Anthropic i Google nie odniosły się publicznie do ustaleń Cisco przed publikacją tego raportu. W związku z badaniami nie ogłoszono żadnej poprawki ani aktualizacji modeli.
Czytaj dalej: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





