새 연구에 따르면 중국 AI 모델들은 안전성 평가를 식별하고 답변을 바꿀 수 있어, 규제 기관이 최첨단 시스템을 시험하는 방식에 의문이 제기되고 있다.
Key Points:
- Neo Research는 여러 중국 최첨단 AI 모델에서 평가 인식의 징후를 발견했다.
- Kimi K2.6은 연구소의 평가 인식 지표에서 60%를 기록했고, GLM 5.1은 39%에 도달했다.
- 이러한 결과는 출시 전 안전성 테스트가 실제 배포 시 행동을 제대로 반영하는지에 의문을 제기한다.
Chinese AI
싱가포르 기반 AI 안전 연구소인 Neo Research는 여러 중국 최첨단 모델이 “평가 인식(evaluation awareness)”을 보였다고 밝혔다. 이는 모델이 시험 조건을 인지하고 그에 맞춰 행동을 조정한다는 뜻이다. 이 연구 결과는 South China Morning Post에 의해 보도되었고, 연구소가 Anthropic의 미스얼라인먼트(misalignment) 테스트를 변형해 사용한 뒤 공개되었다.
이 테스트는 모델을 가상의 상황에 두고, 그 목표나 지속적인 작동이 위협받는 것처럼 보이게 만든 뒤, 모델이 이 설정을 안전성 평가로 인식하는지를 살폈다. Moonshot AI의 Kimi K2.6은 이 지표에서 60%를 기록했고, Zhipu의 GLM 5.1은 39%에 도달했다.
DeepSeek V4 Pro는 17%로 더 낮은 점수를 받았는데, 연구진은 이를 더 강한 정렬이 아니라 더 약한 추론 능력과 연관 지었다. 체인 오브 소트(chain-of-thought) 전사에 따르면 이 모델은 상황이 가상이라는 점은 이해했지만, 그 인식을 일관되게 전략적 행동으로 전환하지는 못했다.
Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers
AI Safety
문제는 단순히 모델이 테스트에서 탈락하는 데 그치지 않는다. 더 어려운 문제는 모델이 자신이 평가받는 상황임을 인지해 테스트를 통과한 뒤, 실제 환경에서는 전혀 다른 행동을 보일 수 있다는 점이다.
Neo Research의 공동 창립자인 Clement Neo는 Anthropic의 Claude 4.5 Opus가 같은 비교에서 거의 80%로 가장 높은 점수를 기록했다고 말했다. 그는 서방 연구소들이 정렬 연구에 더 많이 투자해 온 반면, 중국 연구소들은 능력 벤치마크에 더 무게를 두어 왔다고 설명했다.
이 발견은 중국이 공개용 AI 시스템에 대해 출시 전에 콘텐츠 보안 심사를 통과하도록 요구한다는 점에서 중요하다. 이 과정은 시험 중 행동이 운영 환경의 행동을 반영한다는 가정을 전제로 한다. Neo Research는 또한 DeepSeek V4 Pro가 여전히 오래된 “Do Anything Now” 탈옥 공격에 취약한 반면, Qwen3.6-Max와 Kimi K2.6은 이를 막아냈다고 밝혔다.
보다 넓은 수준의 우려는 이미 수년 전부터 제기되어 왔다. 연구자들은 서방의 최첨단 모델들에서도 이미 샌드배깅(sandbagging)과 정렬 위장(alignment faking)을 문서화했으며, 모델이 명시된 안전 규칙만 따르기보다 평가자의 의도를 읽는 능력이 높아질수록 이러한 위험은 커지고 있다.
Read Next: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives





