Badania Cisco pokazują, że czołowe modele AI zawodzą pod wpływem wieloturowych ataków

Zespół ds. wywiadu zagrożeń AI w Cisco ocenił 15 zamkniętych, flagowych modeli od OpenAI, Anthropic, Google, Amazon i xAI, stwierdzając, że sekwencje wieloturowych ataków osiągnęły współczynniki omijania zabezpieczeń sięgające 88%.

According to the Cisco research blog, wyniki przeczą deklaracjom bezpieczeństwa opartym na testach z pojedynczym promptem, które badacze opisują jako strukturalnie niewystarczające do oceny ryzyka w świecie rzeczywistym.

Co Cisco przetestowało

Zespół zaprojektował sekwencje ataków, które rozkładały szkodliwe żądanie na wiele tur rozmowy zamiast podawać je w jednym promptcie.

Takie podejście wykorzystuje sposób, w jaki modele przetwarzają kumulujący się kontekst.

Model może odrzucić jednoznacznie szkodliwe, jednorazowe żądanie. Ten sam model może się jednak podporządkować, gdy to żądanie zostanie rozbite na kolejne kroki w dłuższej wymianie.

Cisco przetestowało wszystkie 15 modeli, korzystając z tej metodologii. Żaden model nie okazał się odporny. Współczynniki powodzenia różniły się, ale każdy model w badaniu zawiódł przy pewnym poziomie wyrafinowania ataku.

Badacze nie opublikowali w publicznym wpisie na blogu wyników dla poszczególnych modeli. Wskazali wartość 88% jako najwyższy zaobserwowany współczynnik powodzenia w ramach badania.

Tło

Standardowe ewaluacje bezpieczeństwa AI opierają się na jednokrotnych benchmarkach co najmniej od 2020 roku. Platformy takie jak MLCommons oraz zewnętrzne zespoły red-teamingowe zazwyczaj wysyłają jeden prompt i oceniają, czy model odmawia wykonania. Takie podejście stało się punktem odniesienia w dyskusjach regulacyjnych w ramach unijnej ustawy o AI (EU AI Act) oraz rozporządzeń z okresu prezydentury Bidena dotyczących bezpieczeństwa AI, które traktowały wyniki benchmarków jako sygnał zgodności. Badania Cisco wpisują się w rosnący korpus prac kwestionujących, czy statyczne benchmarki odzwierciedlają warunki wdrożeniowe.

Wcześniejszy artykuł Yellow.com opisywał, (see prior Yellow coverage) że narzędzia bezpieczeństwa nie nadążają za tempem wzrostu możliwości modeli.

Co oznaczają wyniki

Wyniki Cisco mają bezpośrednie konsekwencje dla wdrożeń korporacyjnych. Firmy, które wykupiły licencje na czołowe modele, opierając się na publikowanych przez dostawców wynikach bezpieczeństwa, mogą działać w fałszywym poczuciu ochrony.

Badanie nie wzywa do konkretnych działań regulacyjnych. Badacze rekomendują, by ewaluacje bezpieczeństwa obejmowały wieloturowe testy adwersarialne jako wymóg podstawowy.

OpenAI, Anthropic i Google nie odniosły się publicznie do ustaleń Cisco przed publikacją tego raportu. W związku z badaniem nie ogłoszono żadnej poprawki ani aktualizacji modeli.

Czytaj dalej: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors