Cisco의 AI 위협 인텔리전스 팀은 OpenAI, Anthropic, Google, Amazon, xAI의 비공개 플래그십 모델 15개를 평가한 결과, 다중 턴 공격 시퀀스가 최대 88%에 이르는 안전 장치 우회율을 보인다는 사실을 확인했다.
According to the Cisco research blog, 이 연구 결과는 단일 프롬프트 벤치마크에 기반해 제시된 안전성 주장과 상충하며, 연구진은 이러한 단일 프롬프트 벤치마크가 실제 위험을 평가하기에는 구조적으로 부적절하다고 설명한다.
Cisco가 테스트한 내용
연구팀은 해로운 요청을 하나의 프롬프트로 제시하는 대신, 여러 차례의 대화 턴에 걸쳐 분산시키는 공격 시퀀스를 설계했다.
이 접근법은 모델이 문맥을 축적해 처리하는 방식을 악용한다.
어떤 모델은 명백히 해로운 단일 요청에는 거부 반응을 보일 수 있다. 그러나 같은 요청을 더 긴 대화에 걸쳐 단계적으로 쪼개 제시하면, 동일한 모델이 이에 응답해 줄 가능성이 높아진다.
Cisco는 이 방법론을 사용해 15개 모델 전부를 테스트했다. 완전히 면역인 모델은 없었다. 성공률에는 차이가 있었지만, 연구에 포함된 모든 모델이 일정 수준 이상의 정교한 공격에는 실패했다.
연구진은 공개 블로그 게시물에서는 개별 모델의 점수는 공개하지 않았다. 88%라는 수치는 연구 전반에서 관측된 가장 높은 공격 성공률로 제시됐다.
배경
표준 AI 안전성 평가는 최소 2020년부터 단일 턴 벤치마크에 의존해 왔다. MLCommons 같은 플랫폼과 서드파티 레드팀은 일반적으로 하나의 프롬프트를 제출한 뒤, 모델이 이를 거부하는지를 기준으로 평가한다. 이 방식은 EU AI 법안과 바이든 행정부 시절의 AI 안전성 행정명령에서 규제 논의의 기준점이 되었고, 양측 모두 벤치마크 성능을 준수 신호로 참고했다. Cisco의 이번 연구는 정적인 벤치마크가 실제 배포 환경을 얼마나 잘 반영하는지에 대한 의문을 제기하는 연구 흐름에 힘을 보탠다.
이전 Yellow.com 기사에서는 (see prior Yellow coverage) 안전성 도구의 발전 속도가 모델 성능 향상 속도를 따라가지 못하고 있다는 점을 다룬 바 있다.
이번 발견의 의미
Cisco의 결과는 엔터프라이즈 도입에 직접적인 시사점을 제공한다. 공급업체가 공개한 안전성 점수를 근거로 프런티어 모델을 라이선스한 기업들은, 실제보다 과도한 안전성을 기대하고 있을 수 있다.
이번 연구는 특정 규제 대응을 직접 요구하지는 않는다. 연구진은 안전성 평가에 최소한의 요구사항으로 다중 턴 적대적 테스트를 포함해야 한다고 권고한다.
OpenAI, Anthropic, Google은 이 보고서가 발행되기 전까지 Cisco의 연구 결과에 대해 공개적인 입장을 내놓지 않았다. 연구와 관련해 패치나 모델 업데이트도 발표되지 않았다.
다음 읽을거리: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





