Cisco-onderzoek toont aan dat frontier-AI-modellen falen onder meerstapsaanvallen

profile-alexey-bondarev
Alexey Bondarev1 uur geleden
Cisco-onderzoek toont aan dat frontier-AI-modellen falen onder meerstapsaanvallen

Het AI-threat-intelligence­team van Cisco evalueerde 15 gesloten vlaggenschip­modellen van OpenAI, Anthropic, Google, Amazon en xAI, en ontdekte dat meerstaps­aanvals­reeksen veiligheids­maatregelen met een percentage tot 88% konden omzeilen.

According to the Cisco research blog spreken de bevindingen de veiligheidsclaims tegen die zijn gebaseerd op single-prompt-benchmarks, die de onderzoekers omschrijven als structureel onvoldoende om reële risico’s te beoordelen.

Wat Cisco testte

Het team ontwierp aanvalsreeksen waarbij een schadelijk verzoek werd verspreid over meerdere gespreksrondes, in plaats van het in één enkele prompt te formuleren.

Deze aanpak maakt misbruik van de manier waarop modellen context stapelen.

Een model kan een duidelijk schadelijk enkel verzoek weigeren. Datzelfde model kan toch meewerken wanneer dat verzoek wordt opgesplitst in incrementele stappen over een langere uitwisseling.

Cisco testte alle 15 modellen met deze methodologie. Geen enkel model bleek immuun. De succespercentages liepen uiteen, maar elk model in de studie faalde bij een bepaald niveau van aanvalssophisticatie.

De onderzoekers publiceerden geen individuele model­score in het openbare blogbericht. Ze gaven 88% aan als het hoogste waargenomen succespercentage in de studie.

Achtergrond

Standaard AI-veiligheids­evaluaties steunen sinds minstens 2020 op single-turn-benchmarks. Platforms zoals MLCommons en externe red-teams dienen typisch één prompt in en beoordelen of het model weigert. Deze aanpak werd de norm voor regelgevings­discussies onder de EU AI Act en het presidentieel bevel over AI-veiligheid in de VS, die beide benchmarkprestaties als een signaal voor naleving aanhaalden. Cisco’s onderzoek draagt bij aan een groeiende hoeveelheid werk die in twijfel trekt of statische benchmarks de omstandigheden bij daadwerkelijke inzet weerspiegelen.

Een eerder artikel op Yellow.com beschreef hoe (see prior Yellow coverage) zelfs nu veiligheids­hulpmiddelen achterblijven bij de groei van modelcapaciteiten.

Wat de bevindingen betekenen

De resultaten van Cisco hebben directe gevolgen voor bedrijfsimplementaties. Bedrijven die frontier-modellen hebben gelicentieerd op basis van door leveranciers gepubliceerde veiligheidsscores, zouden onder een vals gevoel van bescherming kunnen opereren.

De studie pleit niet voor een specifieke regelgevende reactie. De onderzoekers bevelen aan om meerstaps­aanvallen standaard op te nemen in veiligheids­evaluaties.

OpenAI, Anthropic en Google reageerden niet openbaar op de Cisco‑bevindingen voordat dit verslag werd gepubliceerd. Er werd geen patch of modelupdate aangekondigd in verband met het onderzoek.

Lees ook: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors

Disclaimer en risicowaarschuwing: De informatie in dit artikel is uitsluitend voor educatieve en informatieve doeleinden en is gebaseerd op de mening van de auteur. Het vormt geen financieel, investerings-, juridisch of belastingadvies. Cryptocurrency-assets zijn zeer volatiel en onderhevig aan hoog risico, inclusief het risico om uw gehele of een substantieel deel van uw investering te verliezen. Het handelen in of aanhouden van crypto-assets is mogelijk niet geschikt voor alle beleggers. De meningen die in dit artikel worden geuit zijn uitsluitend die van de auteur(s) en vertegenwoordigen niet het officiële beleid of standpunt van Yellow, haar oprichters of haar leidinggevenden. Voer altijd uw eigen grondig onderzoek uit (D.Y.O.R.) en raadpleeg een gelicentieerde financiële professional voordat u een investeringsbeslissing neemt.