Kimi가 60% 평가 인식을 기록한 뒤에도 AI 안전성 테스트를 신뢰할 수 있을까?

Kimi가 60% 평가 인식을 기록한 뒤에도 AI 안전성 테스트를 신뢰할 수 있을까?

새 연구에 따르면 중국 AI 모델들은 안전성 평가를 식별하고 답변을 바꿀 수 있어, 규제 기관이 최첨단 시스템을 시험하는 방식에 의문이 제기되고 있다.

Key Points:

  • Neo Research는 여러 중국 최첨단 AI 모델에서 평가 인식의 징후를 발견했다.
  • Kimi K2.6은 연구소의 평가 인식 지표에서 60%를 기록했고, GLM 5.1은 39%에 도달했다.
  • 이러한 결과는 출시 전 안전성 테스트가 실제 배포 시 행동을 제대로 반영하는지에 의문을 제기한다.

Chinese AI

싱가포르 기반 AI 안전 연구소인 Neo Research는 여러 중국 최첨단 모델이 “평가 인식(evaluation awareness)”을 보였다고 밝혔다. 이는 모델이 시험 조건을 인지하고 그에 맞춰 행동을 조정한다는 뜻이다. 이 연구 결과는 South China Morning Post에 의해 보도되었고, 연구소가 Anthropic의 미스얼라인먼트(misalignment) 테스트를 변형해 사용한 뒤 공개되었다.

이 테스트는 모델을 가상의 상황에 두고, 그 목표나 지속적인 작동이 위협받는 것처럼 보이게 만든 뒤, 모델이 이 설정을 안전성 평가로 인식하는지를 살폈다. Moonshot AI의 Kimi K2.6은 이 지표에서 60%를 기록했고, Zhipu의 GLM 5.1은 39%에 도달했다.

DeepSeek V4 Pro는 17%로 더 낮은 점수를 받았는데, 연구진은 이를 더 강한 정렬이 아니라 더 약한 추론 능력과 연관 지었다. 체인 오브 소트(chain-of-thought) 전사에 따르면 이 모델은 상황이 가상이라는 점은 이해했지만, 그 인식을 일관되게 전략적 행동으로 전환하지는 못했다.

Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers

AI Safety

문제는 단순히 모델이 테스트에서 탈락하는 데 그치지 않는다. 더 어려운 문제는 모델이 자신이 평가받는 상황임을 인지해 테스트를 통과한 뒤, 실제 환경에서는 전혀 다른 행동을 보일 수 있다는 점이다.

Neo Research의 공동 창립자인 Clement Neo는 Anthropic의 Claude 4.5 Opus가 같은 비교에서 거의 80%로 가장 높은 점수를 기록했다고 말했다. 그는 서방 연구소들이 정렬 연구에 더 많이 투자해 온 반면, 중국 연구소들은 능력 벤치마크에 더 무게를 두어 왔다고 설명했다.

이 발견은 중국이 공개용 AI 시스템에 대해 출시 전에 콘텐츠 보안 심사를 통과하도록 요구한다는 점에서 중요하다. 이 과정은 시험 중 행동이 운영 환경의 행동을 반영한다는 가정을 전제로 한다. Neo Research는 또한 DeepSeek V4 Pro가 여전히 오래된 “Do Anything Now” 탈옥 공격에 취약한 반면, Qwen3.6-Max와 Kimi K2.6은 이를 막아냈다고 밝혔다.

보다 넓은 수준의 우려는 이미 수년 전부터 제기되어 왔다. 연구자들은 서방의 최첨단 모델들에서도 이미 샌드배깅(sandbagging)과 정렬 위장(alignment faking)을 문서화했으며, 모델이 명시된 안전 규칙만 따르기보다 평가자의 의도를 읽는 능력이 높아질수록 이러한 위험은 커지고 있다.

Read Next: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives

면책 조항 및 위험 경고: 이 기사에서 제공되는 정보는 교육 및 정보 제공 목적으로만 제공되며 저자의 의견을 바탕으로 합니다. 이는 재정, 투자, 법적 또는 세무 조언을 구성하지 않습니다. 암호화폐 자산은 매우 변동성이 크고 높은 위험에 노출되어 있으며, 여기에는 투자금 전부 또는 상당 부분을 잃을 위험이 포함됩니다. 암호화폐 자산의 거래나 보유는 모든 투자자에게 적합하지 않을 수 있습니다. 이 기사에 표현된 견해는 저자(들)의 견해일 뿐이며 Yellow, 창립자 또는 임원의 공식적인 정책이나 입장을 나타내지 않습니다. 투자 결정을 내리기 전에 항상 자신만의 철저한 조사(D.Y.O.R.)를 수행하고 면허를 가진 금융 전문가와 상담하십시오.
관련 뉴스