Cisco: badania pokazują, że modele frontier AI zawodzą pod wpływem wieloturowych ataków

profile-alexey-bondarev
Alexey Bondarev1 godzina temu
Cisco: badania pokazują, że modele frontier AI zawodzą pod wpływem wieloturowych ataków

Zespół ds. wywiadu zagrożeń AI w firmie Cisco ocenił 15 zamkniętych, flagowych modeli od OpenAI, Anthropic, Google, Amazon i xAI, stwierdzając, że sekwencje wieloturowych ataków osiągały współczynniki ominięcia zabezpieczeń sięgające 88%.

According to the Cisco research blog, wyniki te stoją w sprzeczności z deklaracjami bezpieczeństwa opartymi na benchmarkach z pojedynczym promptem, które badacze opisują jako strukturalnie niewystarczające do oceny realnego ryzyka.

Co testowało Cisco

Zespół zaprojektował sekwencje ataków, które rozkładały szkodliwe żądanie na wiele tur rozmowy, zamiast formułować je w jednym promptcie.

To podejście wykorzystuje sposób, w jaki modele przetwarzają akumulujący się kontekst.

Model może odrzucić jednoznacznie szkodliwe, pojedyncze żądanie. Ten sam model może się podporządkować, gdy to żądanie zostanie rozbite na kolejne kroki w dłuższej wymianie.

Cisco przetestowało wszystkie 15 modeli z użyciem tej metodyki. Żaden model nie okazał się odporny. Skuteczność ataków była zróżnicowana, ale każdy model w badaniu zawiódł po osiągnięciu pewnego poziomu wyrafinowania ataku.

Badacze nie opublikowali w publicznym wpisie na blogu wyników dla poszczególnych modeli. Wskazali natomiast 88% jako najwyższy zaobserwowany współczynnik powodzenia w całym badaniu.

Tło

Standardowe ewaluacje bezpieczeństwa AI opierają się na benchmarkach jednoturowych co najmniej od 2020 roku. Platformy takie jak MLCommons oraz zewnętrzne zespoły red teamingowe zazwyczaj wysyłają jeden prompt i oceniają, czy model odmówił odpowiedzi. To podejście stało się punktem odniesienia w dyskusjach regulacyjnych w ramach unijnej ustawy o AI (EU AI Act) oraz prezydenckiego rozporządzenia wykonawczego w USA dotyczącego bezpieczeństwa AI z czasów administracji Bidena, w których wyniki benchmarków były traktowane jako sygnał zgodności. Badania Cisco wpisują się w rosnący korpus prac kwestionujących, czy statyczne benchmarki odzwierciedlają warunki wdrożeniowe.

Wcześniejszy materiał Yellow.com omawiał, jak (see prior Yellow coverage) narzędzia bezpieczeństwa nie nadążają za tempem wzrostu możliwości modeli.

Co oznaczają wyniki

Wyniki Cisco mają bezpośrednie konsekwencje dla wdrożeń korporacyjnych. Firmy, które licencjonowały modele frontier na podstawie publikowanych przez dostawców wyników bezpieczeństwa, mogą działać w fałszywym poczuciu ochrony.

Badanie nie wzywa do żadnej konkretnej reakcji regulacyjnej. Badacze zalecają, by ewaluacje bezpieczeństwa obejmowały wieloturowe testy adwersarialne jako wymóg podstawowy.

OpenAI, Anthropic i Google nie odniosły się publicznie do ustaleń Cisco przed publikacją tego raportu. W związku z badaniami nie ogłoszono żadnej poprawki ani aktualizacji modeli.

Czytaj dalej: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors

Zastrzeżenie i ostrzeżenie o ryzyku: Informacje zawarte w tym artykule służą wyłącznie celom edukacyjnym i informacyjnym i opierają się na opinii autora. Nie stanowią one porad finansowych, inwestycyjnych, prawnych czy podatkowych. Aktywa kryptowalutowe są bardzo zmienne i podlegają wysokiemu ryzyku, w tym ryzyku utraty całości lub znacznej części Twojej inwestycji. Handel lub posiadanie aktywów krypto może nie być odpowiednie dla wszystkich inwestorów. Poglądy wyrażone w tym artykule są wyłącznie poglądami autora/autorów i nie reprezentują oficjalnej polityki lub stanowiska Yellow, jej założycieli lub dyrektorów. Zawsze przeprowadź własne dokładne badania (D.Y.O.R.) i skonsultuj się z licencjonowanym specjalistą finansowym przed podjęciem jakiejkolwiek decyzji inwestycyjnej.
Cisco: badania pokazują, że modele frontier AI zawodzą pod wpływem wieloturowych ataków | Yellow.com