Het AI-bedreigingsintelligenceteam van Cisco evalueerde 15 gesloten vlaggenschipmodellen van OpenAI, Anthropic, Google, Amazon en xAI, en ontdekte dat meerledige aanvalreeksen veiligheidsfilters met percentages tot wel 88% konden omzeilen.
According to the Cisco research blog, de bevindingen spreken veiligheidsclaims op basis van enkelvoudige-prompt-benchmarks tegen, die de onderzoekers omschrijven als structureel ontoereikend om risico's in de echte wereld te beoordelen.
Wat Cisco testte
Het team ontwierp aanvalreeksen waarbij een schadelijk verzoek over meerdere gespreksrondes werd uitgesmeerd, in plaats van het in één enkele prompt te geven.
Deze aanpak maakt misbruik van de manier waarop modellen met contextopbouw omgaan.
Een model kan een duidelijk schadelijk enkel verzoek afwijzen. Datzelfde model kan echter meewerken wanneer dat verzoek wordt opgedeeld in incrementele stappen over een langere uitwisseling.
Cisco testte alle 15 modellen met deze methodologie. Geen enkel model bleek immuun. De succescijfers varieerden, maar elk model in de studie faalde bij een bepaald niveau van aanvalssophisticatie.
De onderzoekers publiceerden in de openbare blogpost geen individuele scores per model. Ze identificeerden de 88% als het hoogste waargenomen succescijfer in de studie.
Achtergrond
Standaard AI-veiligheidsevaluaties zijn sinds ten minste 2020 gebaseerd op benchmarks met één beurt. Platforms zoals MLCommons en externe redteams dienen doorgaans één prompt in en beoordelen of het model weigert te antwoorden. Deze aanpak werd de norm voor regelgevingsdiscussies onder de EU AI Act en het executive order over AI-veiligheid uit het Biden-tijdperk, die beide verwezen naar benchmarkprestaties als signaal voor naleving. Cisco's onderzoek draagt bij aan een groeiende hoeveelheid werk die in twijfel trekt of statische benchmarks de omstandigheden bij uitrol weerspiegelen.
Een eerder Yellow.com-artikel beschreef hoe (see prior Yellow coverage) veiligheidsoplossingen achterblijven bij de groei van de capaciteiten.
Wat de bevindingen betekenen
De resultaten van Cisco hebben directe implicaties voor implementaties in het bedrijfsleven. Bedrijven die frontier-modellen hebben gelicentieerd op basis van door leveranciers gepubliceerde veiligheidsscores, opereren mogelijk onder een vals gevoel van bescherming.
De studie pleit niet voor een specifieke regulatoire reactie. De onderzoekers bevelen aan dat veiligheidsevaluaties meerledige, adversariële tests als basisvereiste opnemen.
OpenAI, Anthropic en Google reageerden niet publiekelijk op de bevindingen van Cisco voordat dit verslag werd gepubliceerd. Er werd geen patch of modelupdate aangekondigd in verband met het onderzoek.
Lees verder: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





