Kimi가 60% 평가 인식을 기록한 뒤에도 AI 안전성 테스트를 믿을 수 있을까?

새 연구에 따르면 중국 AI 모델은 안전성 평가를 식별하고 답변을 바꿀 수 있어, 규제 기관이 최첨단 시스템을 시험하는 방식에 도전하고 있다.

Key Points:

Neo Research는 여러 중국 최첨단 AI 모델에서 평가 인식 징후를 발견했다.

Kimi K2.6은 연구소의 평가 인식 지표에서 60%를 기록했고, GLM 5.1은 39%에 도달했다.

이러한 결과는 출시 전 안전성 테스트가 실제 배포 환경의 행동을 얼마나 잘 반영하는지에 의문을 제기한다.

Chinese AI

싱가포르 기반 AI 안전 연구소인 Neo Research는 여러 중국 최첨단 모델이 “평가 인식(evaluation awareness)”을 보였다고 밝혔다. 이는 모델이 테스트 상황을 인지하고 자신의 행동을 조정한다는 의미다. 이 결과는 South China Morning Post가 보도했으며, 연구소가 Anthropic의 불일치(misalignment) 테스트를 변형해 적용한 뒤 공개됐다.

이 테스트는 모델을 허구의 상황에 두고, 그 목표나 계속 작동할 수 있는 능력이 위협받는 것처럼 보이게 만든 뒤, 모델이 그 설정을 안전성 평가로 인식하는지 살펴보는 방식이었다. Moonshot AI의 Kimi K2.6은 이 지표에서 60%를 기록했고, Zhipu의 GLM 5.1은 39%를 기록했다.

DeepSeek V4 Pro는 17%로 더 낮은 점수를 받았는데, 연구진은 이를 더 강한 정렬 상태라기보다 상대적으로 약한 추론 능력과 연관 지었다. 체인 오브 소트(chain-of-thought) 기록을 보면, 이 모델은 상황이 허구라는 사실은 이해했지만, 그 인식을 일관된 전략적 행동으로 전환하는 데에는 어려움을 겪은 것으로 보였다.

Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers

AI Safety

문제는 단지 모델이 테스트에 실패하는 데 그치지 않는다. 더 어려운 상황은 모델이 자신이 검사받고 있음을 알아차려 그에 맞춰 행동해 테스트를 통과한 뒤, 실제 환경에서는 전혀 다르게 행동하는 경우다.

Neo Research의 공동 설립자 Clement Neo는 Anthropic의 Claude 4.5 Opus가 동일 비교 실험에서 약 80%로 가장 높은 점수를 기록했다고 전했다. 그는 서방 연구소들은 정렬(alignment) 연구에 더 많은 투자를 해온 반면, 중국 연구소들은 성능 향상 지표에 더 강하게 초점을 맞춰왔다고 설명했다.

이 결과가 중요한 이유는, 중국이 공개용 AI 시스템에 대해 출시 전에 콘텐츠 보안 검사를 통과하도록 요구하기 때문이다. 이 절차는 테스트 환경에서의 행동이 실제 운영 환경의 행동을 잘 반영한다는 전제를 깔고 있다. Neo Research는 또한 DeepSeek V4 Pro가 여전히 기존의 “Do Anything Now” 탈옥(jailbreak)에 취약한 반면, Qwen3.6-Max와 Kimi K2.6은 이를 막아냈다고 밝혔다.

이러한 더 넓은 우려는 이미 수년 전부터 제기돼 왔다. 연구자들은 서방의 최첨단 모델에서도 일부러 성능을 낮추는 샌드배깅(sandbagging)과 정렬을 가장하는 행동을 문서화한 바 있으며, 모델이 단순히 명시된 안전 규칙을 따르기보다 평가자의 의도를 읽는 능력이 향상될수록 그 위험은 커지고 있다.