Yellow.com

Anthropic, OpenAI, Google, Meta는 각각 2026년에 프롬프트 인젝션 공개 보고서를 발표했지만, 6월 1일 VentureBeat가 공개한 비교 분석에 따르면 어떤 두 회사도 동일한 지표를 사용해 측정하지 않았다.

이런 일관성 부족은 엔터프라이즈 보안팀이 모델 간 위험을 비교하기 어렵게 만든다.

공개 보고서가 보여준 것

VentureBeat의 분석은 Anthropic의 브라우저 에이전트를 다뤘으며, 해당 에이전트는 안전 장치가 개입하기 전에 테스트된 시나리오의 31%에서 하이재킹됐다. 나머지 세 연구소는 서로 다른 테스트 조건, 서로 다른 공격 유형, 그리고 서로 다른 성공률 정의를 공개했다.

Anthropic은 브라우저 에이전트 하이재킹 비율을 측정했다. 다른 연구소들은 도구 호출 맥락에서의 간접 인젝션이나 문서 요약 작업에 초점을 맞췄다. 네 보고서 모두 공통 프레임워크나 공용 적대적 테스트 스위트를 사용하지 않았다.

프로덕션용 AI 에이전트를 평가하는 엔터프라이즈 구매자들은 표준화된 비교 기준이 없는 상태다. 한 연구소의 정의에 따라 낮은 인젝션 비율을 보이는 모델도, 다른 연구소의 테스트 설계에서는 더 높은 노출을 보일 수 있다.

Also Read: OpenAI Model Cracks An 80-Year Math Problem No Human Could Solve

배경

프롬프트 인젝션은 AI 에이전트가 단순 챗봇에서 이메일 발송, 코드 실행, 외부 API 호출 같은 실제 행동을 수행하는 자율 시스템으로 발전하면서, 공식적인 위협 범주로 인식되기 시작했다. 주입된 지시는 에이전트를 본래의 의도된 범위를 벗어난 행동으로 우회시키는 데 사용할 수 있다.

2025년에는 여러 엔터프라이즈 배포 환경에서 문서 처리 에이전트가 연루된 프롬프트 인젝션 사고가 발생했다. 어느 것도 대규모 침해 수준에는 이르지 않았지만, 이러한 사고는 표준화된 공개 요구 사항을 마련해야 한다는 목소리를 불러일으켰다. 아직 어떤 규제 기관도 AI 에이전트 취약성에 대한 공통 보고 형식을 의무화하지 않았다.

2026년에 발표된 네 건의 공개 보고서는 연구소들이 자발적으로 투명성을 확보하려는 노력의 일환이다. VentureBeat는 이러한 공통 표준의 부재가 CVE 시스템이 확립되기 전, 소프트웨어 취약성 공개가 겪었던 초기의 어려움과 닮았다고 지적했다.

Also Read: Anthropic Overtakes OpenAI As World's Most Valuable AI Startup At $965B

보안팀이 해야 할 일

VentureBeat 보고서는 보안팀이 각 연구소의 공개 자료를 헤드라인 수치끼리 비교하기보다는, 해당 연구소의 기준에 따라 개별적으로 해석할 것을 권고했다. 팀은 민감한 워크플로에 에이전트를 도입하기 전에 테스트 방법론에 대한 구체적인 정보를 요청해야 한다.

보고서와 함께 AI 에이전트 보안 공개를 표준화하기 위한 어떠한 규제 조치도 발표되지 않았다. AI agent 보안 공개의 분산된 양상은 업계 단체나 규제 기관이 공통 프레임워크를 의무화할 때까지 계속될 가능성이 크다.

Murtuza Merchant

무르투자(Murtuza)는 암호화폐와 블록체인 기술을 폭넓게 다뤄 온 경험 많은 금융 저널리스트입니다. 그는 Benzinga와 Cointelegraph를 비롯한 여러 매체에서 기고해 왔으며, 신흥 트렌드와 규제 환경 등 다양한 주제를 취재해 왔습니다. 트위터에서는 @murtuza_merc, 텔레그램에서는 mmerchant001 계정으로 그를 찾을 수 있습니다. Disclosure: Murtuza holds ATOM, AKT, TIA, INJ, and OSMO.

연구에 따르면 네 곳의 주요 AI 연구소가 서로 호환되지 않는 프롬프트 인젝션 지표를 사용

공개 보고서가 보여준 것

배경

보안팀이 해야 할 일

Murtuza Merchant