Das Threat-Intelligence-Team für KI von Cisco bewertete 15 geschlossene Flaggschiffmodelle von OpenAI, Anthropic, Google, Amazon und xAI und stellte fest, dass mehrstufige Angriffsketten Sicherheitsmechanismen mit einer Erfolgsquote von bis zu 88 % umgehen konnten.
According to the Cisco research blog widersprechen die Ergebnisse Sicherheitsversprechen, die auf Einzel-Prompt-Benchmarks basieren, welche die Forschenden als strukturell unzureichend zur Bewertung realer Risiken bezeichnen.
Was Cisco getestet hat
Das Team entwarf Angriffsketten, bei denen eine schädliche Anfrage über mehrere Gesprächsrunden verteilt wurde, anstatt sie in einem einzigen Prompt zu stellen.
Dieser Ansatz nutzt aus, wie Modelle Kontext über mehrere Nachrichten hinweg verarbeiten.
Ein Modell kann eine klar schädliche Einzelanfrage ablehnen. Dasselbe Modell kann jedoch zustimmen, wenn diese Anfrage in inkrementale Schritte über einen längeren Dialog aufgeteilt wird.
Cisco testete alle 15 Modelle mit dieser Methodik. Kein Modell erwies sich als immun. Die Erfolgsquoten variierten, aber jedes Modell in der Studie versagte ab einem bestimmten Grad an Angriffskomplexität.
Die Forschenden veröffentlichten im öffentlichen Blogpost keine Einzelbewertungen der Modelle. Sie nannten die 88-%-Quote als höchste beobachtete Erfolgsrate in der Studie.
Hintergrund
Standardisierte KI-Sicherheitsbewertungen stützen sich seit mindestens 2020 auf Single-Turn-Benchmarks. Plattformen wie MLCommons und externe Red-Teaming-Gruppen reichen typischerweise einen Prompt ein und bewerten, ob das Modell ihn ablehnt. Dieser Ansatz wurde zur Grundlage regulatorischer Diskussionen im Rahmen des EU-AI-Acts und der Sicherheitsverfügungen der Biden-Regierung, die beide die Benchmark-Performance als Compliance-Signal heranziehen. Die Cisco-Studie ergänzt eine wachsende Zahl von Arbeiten, die in Frage stellen, ob statische Benchmarks reale Einsatzbedingungen abbilden.
Ein früherer Yellow.com-Artikel zeigte auf (see prior Yellow coverage), dass Sicherheitswerkzeuge den rasanten Fähigkeitszuwächsen der Modelle hinterherhinken.
Was die Ergebnisse bedeuten
Die Ergebnisse von Cisco haben direkte Auswirkungen auf Unternehmenseinsätze. Unternehmen, die Frontier-Modelle auf Basis veröffentlichter Sicherheitswerte der Anbieter lizenziert haben, könnten in einem trügerischen Gefühl der Sicherheit agieren.
Die Studie fordert keine spezifischen regulatorischen Maßnahmen. Die Forschenden empfehlen, dass Sicherheitsbewertungen mehrstufige, adversarielle Tests als Mindestanforderung enthalten.
OpenAI, Anthropic und Google äußerten sich vor Veröffentlichung dieses Berichts nicht öffentlich zu den Cisco-Ergebnissen. In Verbindung mit der Studie wurde kein Patch oder Modell-Update angekündigt.
Weiterlesen: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





