Cisco-Studie zeigt, dass Frontier-AI-Modelle bei mehrstufigen Angriffen versagen

profile-alexey-bondarev
Alexey Bondarevvor 1 Stunde
Cisco-Studie zeigt, dass Frontier-AI-Modelle bei mehrstufigen Angriffen versagen

Das Threat-Intelligence-Team für KI von Cisco bewertete 15 geschlossene Flaggschiffmodelle von OpenAI, Anthropic, Google, Amazon und xAI und stellte fest, dass mehrstufige Angriffsketten Sicherheitsmechanismen mit einer Erfolgsquote von bis zu 88 % umgehen konnten.

According to the Cisco research blog widersprechen die Ergebnisse Sicherheitsversprechen, die auf Einzel-Prompt-Benchmarks basieren, welche die Forschenden als strukturell unzureichend zur Bewertung realer Risiken bezeichnen.

Was Cisco getestet hat

Das Team entwarf Angriffsketten, bei denen eine schädliche Anfrage über mehrere Gesprächsrunden verteilt wurde, anstatt sie in einem einzigen Prompt zu stellen.

Dieser Ansatz nutzt aus, wie Modelle Kontext über mehrere Nachrichten hinweg verarbeiten.

Ein Modell kann eine klar schädliche Einzelanfrage ablehnen. Dasselbe Modell kann jedoch zustimmen, wenn diese Anfrage in inkrementale Schritte über einen längeren Dialog aufgeteilt wird.

Cisco testete alle 15 Modelle mit dieser Methodik. Kein Modell erwies sich als immun. Die Erfolgsquoten variierten, aber jedes Modell in der Studie versagte ab einem bestimmten Grad an Angriffskomplexität.

Die Forschenden veröffentlichten im öffentlichen Blogpost keine Einzelbewertungen der Modelle. Sie nannten die 88-%-Quote als höchste beobachtete Erfolgsrate in der Studie.

Hintergrund

Standardisierte KI-Sicherheitsbewertungen stützen sich seit mindestens 2020 auf Single-Turn-Benchmarks. Plattformen wie MLCommons und externe Red-Teaming-Gruppen reichen typischerweise einen Prompt ein und bewerten, ob das Modell ihn ablehnt. Dieser Ansatz wurde zur Grundlage regulatorischer Diskussionen im Rahmen des EU-AI-Acts und der Sicherheitsverfügungen der Biden-Regierung, die beide die Benchmark-Performance als Compliance-Signal heranziehen. Die Cisco-Studie ergänzt eine wachsende Zahl von Arbeiten, die in Frage stellen, ob statische Benchmarks reale Einsatzbedingungen abbilden.

Ein früherer Yellow.com-Artikel zeigte auf (see prior Yellow coverage), dass Sicherheitswerkzeuge den rasanten Fähigkeitszuwächsen der Modelle hinterherhinken.

Was die Ergebnisse bedeuten

Die Ergebnisse von Cisco haben direkte Auswirkungen auf Unternehmenseinsätze. Unternehmen, die Frontier-Modelle auf Basis veröffentlichter Sicherheitswerte der Anbieter lizenziert haben, könnten in einem trügerischen Gefühl der Sicherheit agieren.

Die Studie fordert keine spezifischen regulatorischen Maßnahmen. Die Forschenden empfehlen, dass Sicherheitsbewertungen mehrstufige, adversarielle Tests als Mindestanforderung enthalten.

OpenAI, Anthropic und Google äußerten sich vor Veröffentlichung dieses Berichts nicht öffentlich zu den Cisco-Ergebnissen. In Verbindung mit der Studie wurde kein Patch oder Modell-Update angekündigt.

Weiterlesen: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors

Haftungsausschluss und Risikowarnung: Die in diesem Artikel bereitgestellten Informationen dienen nur Bildungs- und Informationszwecken und basieren auf der Meinung des Autors. Sie stellen keine Finanz-, Anlage-, Rechts- oder Steuerberatung dar. Kryptowährungsassets sind hochvolatil und unterliegen hohen Risiken, einschließlich des Risikos, Ihre gesamte oder einen erheblichen Teil Ihrer Investition zu verlieren. Der Handel oder das Halten von Krypto-Assets ist möglicherweise nicht für alle Anleger geeignet. Die in diesem Artikel geäußerten Ansichten sind ausschließlich die des Autors/der Autoren und repräsentieren nicht die offizielle Politik oder Position von Yellow, seinen Gründern oder seinen Führungskräften. Führen Sie immer Ihre eigenen gründlichen Recherchen (D.Y.O.R.) durch und konsultieren Sie einen lizenzierten Finanzprofi, bevor Sie eine Anlageentscheidung treffen.
Neueste Nachrichten
Alle Nachrichten anzeigen
Cisco-Studie zeigt, dass Frontier-AI-Modelle bei mehrstufigen Angriffen versagen | Yellow.com