Yellow.com

Anthropic, OpenAI, Google i Meta opublikowały w 2026 r. raporty dotyczące ataków typu prompt injection, ale porównanie opublikowane przez VentureBeat 1 czerwca wykazało, że żadna z firm nie mierzy tych samych metryk.

Ta niespójność makes utrudnia zespołom ds. bezpieczeństwa w przedsiębiorstwach porównywanie ryzyka między modelami.

Co pokazały ujawnienia

Analiza VentureBeat objęła przeglądarkowego agenta Anthropic, który został przejęty w 31% testowanych scenariuszy, zanim zadziałały zabezpieczenia. Pozostałe trzy laboratoria ujawniły różne warunki testów, różne typy ataków i różne definicje wskaźników skuteczności.

Anthropic mierzyło odsetek przejęć przeglądarkowego agenta. Inne laboratoria koncentrowały się na pośrednich atakach injection w kontekście wywoływania narzędzi lub zadań podsumowywania dokumentów. Żaden z czterech raportów nie korzystał ze wspólnego frameworka ani wspólnego zestawu testów adwersarialnych.

Nabywcy korporacyjni, którzy oceniają agentów AI pod kątem wdrożenia produkcyjnego, nie mają znormalizowanej podstawy do porównań. Model wykazujący niski wskaźnik injection według definicji jednego laboratorium może być znacznie bardziej narażony w warunkach testowych innego laboratorium.

Also Read: OpenAI Model Cracks An 80-Year Math Problem No Human Could Solve

Tło

Ataki typu prompt injection stały się uznaną kategorią zagrożeń, gdy agenci AI przeszli od chatbotów do autonomicznych systemów zdolnych do wykonywania realnych działań, takich jak wysyłanie e‑maili, wykonywanie kodu czy wywoływanie zewnętrznych interfejsów API. Wstrzyknięta instrukcja może przekierować agenta do działań wykraczających poza jego zamierzony zakres.

W 2025 r. kilka wdrożeń korporacyjnych doświadczyło incydentów prompt injection z udziałem agentów przetwarzających dokumenty. Żaden nie osiągnął skali poważnego naruszenia, ale incydenty wywołały wezwania do wprowadzenia znormalizowanych wymogów ujawniania. Żaden organ regulacyjny nie nałożył dotąd obowiązku stosowania wspólnego formatu raportowania podatności agentów AI.

Cztery ujawnienia opublikowane w 2026 r. reprezentują dobrowolne działania na rzecz przejrzystości ze strony laboratoriów. VentureBeat zauważył, że brak wspólnego standardu odzwierciedla wczesne wyzwania związane z ujawnianiem podatności oprogramowania przed ustanowieniem systemu CVE.

Also Read: Anthropic Overtakes OpenAI As World's Most Valuable AI Startup At $965B

Co powinny zrobić zespoły bezpieczeństwa

W raporcie VentureBeat zalecono, aby zespoły bezpieczeństwa traktowały ujawnienia każdego laboratorium w jego własnych kategoriach, zamiast porównywać pojedyncze liczby z nagłówków. Zespoły powinny żądać szczegółów dotyczących metodologii testów, zanim wdrożą agentów w wrażliwych procesach.

Wraz z publikacją raportu nie ogłoszono żadnych działań regulacyjnych dotyczących standaryzacji ujawnień bezpieczeństwa AI agent. Rozbieżności prawdopodobnie utrzymają się do czasu, aż organizacja branżowa lub regulator wprowadzi wspólny framework.

Murtuza Merchant

Murtuza jest doświadczonym dziennikarzem finansowym ze znacznym doświadczeniem w relacjonowaniu tematyki kryptowalut i technologii blockchain. Współpracował z Benzinga i Cointelegraph, a także innymi redakcjami, pisząc o nowych trendach, otoczeniu regulacyjnym i wielu innych kwestiach. Można go znaleźć jako @murtuza_merc na Twitterze oraz mmerchant001 na Telegramie. Informacja: Murtuza posiada ATOM, AKT, TIA, INJ i OSMO.

Badanie pokazuje, że cztery główne laboratoria AI używają niekompatybilnych metryk ataków typu prompt injection

Co pokazały ujawnienia

Tło

Co powinny zrobić zespoły bezpieczeństwa

Murtuza Merchant