Cisco의 AI 위협 인텔리전스 팀은 OpenAI, Anthropic, Google, Amazon, xAI의 비공개 플래그십 모델 15개를 평가한 결과, 다중 턴 공격 시퀀스가 최대 88%에 이르는 안전 장치 우회율을 달성한다는 사실을 발견했다.
According to the Cisco research blog, 이번 결과는 단일 프롬프트 벤치마크에 기반한 안전성 주장과 상충하며, 연구진은 이러한 벤치마크가 실제 환경의 위험을 평가하기에는 구조적으로 부적절하다고 지적했다.
Cisco가 테스트한 내용
연구팀은 유해한 요청을 하나의 프롬프트로 입력하는 대신, 여러 번의 대화 턴에 걸쳐 나누어 제시하는 공격 시퀀스를 설계했다.
이 접근법은 모델이 맥락을 누적해 처리하는 방식을 악용한다.
모델은 명백히 유해한 단일 요청은 거부할 수 있다. 그러나 동일한 요청을 더 긴 대화 흐름 속의 점진적인 단계들로 쪼개면, 같은 모델이 이를 수용할 가능성이 커진다.
Cisco는 이 방법론을 사용해 15개 모델 전부를 테스트했다. 어떤 모델도 완전히 면역되지 못했다. 성공률에는 차이가 있었지만, 연구에 포함된 모든 모델이 일정 수준 이상의 공격 정교도에서 실패했다.
연구진은 공개 블로그 글에서는 개별 모델 점수는 공개하지 않았다. 다만 전체 연구에서 관측된 최고 성공률로 88% 수치를 제시했다.
배경
표준 AI 안전성 평가는 최소 2020년부터 단일 턴 벤치마크에 의존해 왔다. MLCommons 같은 플랫폼과 서드파티 레드팀은 보통 하나의 프롬프트를 제출하고, 모델이 이를 거부하는지 여부를 평가한다. 이 접근법은 EU AI 법안과 바이든 행정부 시절의 AI 안전성 행정명령에서 규제 논의의 기준선으로 자리 잡았으며, 두 경우 모두 벤치마크 성능을 준수 신호로 참조했다. Cisco의 연구는 정적인 벤치마크가 실제 배포 환경을 충분히 반영하느냐는 의문을 제기하는 연구 흐름에 힘을 보태고 있다.
이전 Yellow.com 기사에서는 안전 도구가 능력 성장을 따라가지 못하는 상황을 다룬 바 있다 (see prior Yellow coverage).
이번 결과의 의미
Cisco의 결과는 기업 환경에서의 모델 도입에 직접적인 시사점을 제공한다. 벤더가 공개한 안전성 점수를 근거로 프런티어 모델을 라이선스한 기업들은 실제보다 안전하다고 오인하고 있을 수 있다.
이번 연구는 특정 규제 조치를 직접 촉구하지는 않는다. 대신 연구진은 안전성 평가에 다중 턴 적대적 테스트를 기본 요구 사항으로 포함할 것을 권고한다.
OpenAI, Anthropic, Google은 이 보고서가 발행되기 전까지 Cisco의 결과에 대해 공개적으로 입장을 내지 않았다. 이 연구와 관련해 패치나 모델 업데이트도 발표되지 않았다.
다음 읽을거리: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





