Studie findet heraus, dass vier große KI-Labore unvereinbare Prompt-Injection-Metriken verwenden

Anthropic, OpenAI, Google und Meta haben jeweils 2026 Offenlegungen zu Prompt-Injection veröffentlicht, aber ein am 1. Juni von VentureBeat veröffentlichter Vergleich ergab, dass keine zwei Unternehmen dieselben Kennzahlen messen.

Die Inkonsistenz makes es für Unternehmenssicherheitsteams schwierig, Risiken über verschiedene Modelle hinweg zu vergleichen.

Was die Offenlegungen zeigten

Die Analyse von VentureBeat umfasste den Browser-Agenten von Anthropic, der in 31 % der getesteten Szenarien gekapert wurde, bevor Sicherheitsvorkehrungen griffen. Die drei anderen Labore legten unterschiedliche Testbedingungen, unterschiedliche Angriffsarten und unterschiedliche Definitionen der Erfolgsraten offen.

Anthropic maß die Kaperungsraten des Browser-Agenten. Andere Labore konzentrierten sich auf indirekte Injection in Tool-Calling-Kontexten oder Dokumentzusammenfassungsaufgaben. Keiner der vier Berichte nutzte einen gemeinsamen Rahmen oder eine gemeinsame adversarische Testsuite.

Unternehmenskäufer, die KI-Agenten für den Produktionseinsatz bewerten, haben keine standardisierte Vergleichsbasis. Ein Modell mit einer niedrigen Injektionsrate nach der Definition eines Labors kann unter dem Testdesign eines anderen Labors einer höheren Exposition ausgesetzt sein.

Also Read: OpenAI Model Cracks An 80-Year Math Problem No Human Could Solve

Hintergrund

Prompt-Injection wurde als eigene Bedrohungskategorie anerkannt, als sich KI-Agenten von Chatbots zu autonomen Systemen entwickelten, die reale Aktionen wie das Versenden von E-Mails, das Ausführen von Code und das Aufrufen externer APIs durchführen können. Eine eingeschleuste Anweisung kann einen Agenten dazu bringen, Handlungen außerhalb seines vorgesehenen Rahmens auszuführen.

Im Jahr 2025 kam es bei mehreren Unternehmenseinführungen zu Prompt-Injection-Vorfällen mit dokumentenverarbeitenden Agenten. Keiner dieser Vorfälle erreichte das Ausmaß einer großen Sicherheitsverletzung, doch die Vorfälle führten zu Forderungen nach standardisierten Offenlegungspflichten. Noch keine Aufsichtsbehörde hat ein gemeinsames Berichtsformat für Schwachstellen von KI-Agenten vorgeschrieben.

Die vier im Jahr 2026 veröffentlichten Offenlegungen stellen freiwillige Transparenzbemühungen der Labore dar. VentureBeat stellte fest, dass der Mangel an einem gemeinsamen Standard an frühe Schwierigkeiten bei der Offenlegung von Softwareschwachstellen erinnert, bevor das CVE-System etabliert wurde.

Also Read: Anthropic Overtakes OpenAI As World's Most Valuable AI Startup At $965B

Was Sicherheitsteams tun sollten

Der Bericht von VentureBeat riet Sicherheitsteams, jede Offenlegung eines Labors für sich zu betrachten, anstatt die Schlagzeilenzahlen direkt zu vergleichen. Teams sollten Details zur Testmethodik anfordern, bevor sie Agenten in sensiblen Workflows einsetzen.

Keine regulatorischen Maßnahmen zur Standardisierung von Sicherheitsoffenlegungen für AI agent wurden zusammen mit dem Bericht angekündigt. Die Divergenz dürfte anhalten, bis ein Branchenverband oder eine Aufsichtsbehörde einen gemeinsamen Rahmen vorschreibt.