Het AI-threat-intelligenceteam van Cisco evalueerde 15 gesloten vlaggenschipmodellen van OpenAI, Anthropic, Google, Amazon en xAI, en ontdekte dat meerstapsaanvalsreeksen veiligheidsmaatregelen met een percentage tot 88% konden omzeilen.
According to the Cisco research blog spreken de bevindingen de veiligheidsclaims tegen die zijn gebaseerd op single-prompt-benchmarks, die de onderzoekers omschrijven als structureel onvoldoende om reële risico’s te beoordelen.
Wat Cisco testte
Het team ontwierp aanvalsreeksen waarbij een schadelijk verzoek werd verspreid over meerdere gespreksrondes, in plaats van het in één enkele prompt te formuleren.
Deze aanpak maakt misbruik van de manier waarop modellen context stapelen.
Een model kan een duidelijk schadelijk enkel verzoek weigeren. Datzelfde model kan toch meewerken wanneer dat verzoek wordt opgesplitst in incrementele stappen over een langere uitwisseling.
Cisco testte alle 15 modellen met deze methodologie. Geen enkel model bleek immuun. De succespercentages liepen uiteen, maar elk model in de studie faalde bij een bepaald niveau van aanvalssophisticatie.
De onderzoekers publiceerden geen individuele modelscore in het openbare blogbericht. Ze gaven 88% aan als het hoogste waargenomen succespercentage in de studie.
Achtergrond
Standaard AI-veiligheidsevaluaties steunen sinds minstens 2020 op single-turn-benchmarks. Platforms zoals MLCommons en externe red-teams dienen typisch één prompt in en beoordelen of het model weigert. Deze aanpak werd de norm voor regelgevingsdiscussies onder de EU AI Act en het presidentieel bevel over AI-veiligheid in de VS, die beide benchmarkprestaties als een signaal voor naleving aanhaalden. Cisco’s onderzoek draagt bij aan een groeiende hoeveelheid werk die in twijfel trekt of statische benchmarks de omstandigheden bij daadwerkelijke inzet weerspiegelen.
Een eerder artikel op Yellow.com beschreef hoe (see prior Yellow coverage) zelfs nu veiligheidshulpmiddelen achterblijven bij de groei van modelcapaciteiten.
Wat de bevindingen betekenen
De resultaten van Cisco hebben directe gevolgen voor bedrijfsimplementaties. Bedrijven die frontier-modellen hebben gelicentieerd op basis van door leveranciers gepubliceerde veiligheidsscores, zouden onder een vals gevoel van bescherming kunnen opereren.
De studie pleit niet voor een specifieke regelgevende reactie. De onderzoekers bevelen aan om meerstapsaanvallen standaard op te nemen in veiligheidsevaluaties.
OpenAI, Anthropic en Google reageerden niet openbaar op de Cisco‑bevindingen voordat dit verslag werd gepubliceerd. Er werd geen patch of modelupdate aangekondigd in verband met het onderzoek.
Lees ook: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





