Cisco-Forschung zeigt, dass Frontier-AI-Modelle bei mehrstufigen Angriffen versagen

Das Threat-Intelligence-Team für KI von Cisco bewertete 15 geschlossene Flaggschiff-Modelle von OpenAI, Anthropic, Google, Amazon und xAI und stellte fest, dass mehrstufige Angriffssequenzen Sicherheitsbarrieren mit Raten von bis zu 88 % umgehen konnten.

According to the Cisco research blog, widersprechen die Ergebnisse Sicherheitsversprechen, die auf Ein-Prompt-Benchmarks beruhen, die die Forschenden als strukturell unzureichend zur Bewertung realer Risiken bezeichnen.

Was Cisco getestet hat

Das Team entwarf Angriffssequenzen, bei denen eine schädliche Anfrage über mehrere Gesprächsrunden verteilt wurde, statt sie in einem einzigen Prompt zu stellen.

Dieser Ansatz nutzt aus, wie Modelle die Akkumulation von Kontext verarbeiten.

Ein Modell kann eine offensichtlich schädliche Einzelanfrage ablehnen. Dasselbe Modell kann jedoch nachgeben, wenn diese Anfrage in inkrementale Schritte über einen längeren Austausch aufgeteilt wird.

Cisco testete alle 15 Modelle mit dieser Methodik. Kein Modell erwies sich als immun. Die Erfolgsraten variierten, aber jedes Modell in der Studie versagte ab einem bestimmten Schwellenwert der Angriffskomplexität.

Die Forschenden veröffentlichten in dem öffentlichen Blogbeitrag keine Einzelwerte zu den Modellen. Sie gaben die 88-%-Quote als höchste beobachtete Erfolgsrate in der Studie an.

Hintergrund

Standardisierte KI-Sicherheitsbewertungen stützen sich seit mindestens 2020 auf Single-Turn-Benchmarks. Plattformen wie MLCommons und externe Red-Teaming-Gruppen verwenden typischerweise einen einzelnen Prompt und bewerten, ob das Modell die Antwort verweigert. Dieser Ansatz wurde zur Basis für regulatorische Diskussionen im Rahmen des EU AI Act und der US-Exekutivanordnung zur KI-Sicherheit aus der Biden-Ära, die beide die Benchmark-Leistung als Compliance-Signal heranzogen. Die Cisco-Forschung trägt zu einer wachsenden Zahl von Arbeiten bei, die in Frage stellen, ob statische Benchmarks die Einsatzbedingungen in der Praxis widerspiegeln.

Eine frühere Yellow.com-Story behandelte, wie (see prior Yellow coverage) Sicherheitswerkzeuge trotz rasant wachsender Fähigkeiten hinterherhinken.

Was die Ergebnisse bedeuten

Die Ergebnisse von Cisco haben direkte Auswirkungen auf Unternehmensimplementierungen. Unternehmen, die Frontier-Modelle auf Basis veröffentlichter Sicherheitswerte der Anbieter lizenziert haben, könnten sich in trügerischer Sicherheit wiegen.

Die Studie fordert keine spezifische regulatorische Reaktion. Die Forschenden empfehlen, dass Sicherheitsbewertungen mehrstufiges adversariales Testen als Mindestanforderung einschließen.

OpenAI, Anthropic und Google äußerten sich vor Veröffentlichung dieses Berichts nicht öffentlich zu den Cisco-Ergebnissen. Im Zusammenhang mit der Forschung wurde weder ein Patch noch ein Modell-Update angekündigt.

Weiterlesen: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors