Kimi 安全意識達 60% 後，AI 安全測試還可信嗎？

最新研究顯示，中國 AI 模型可以辨認安全評估並改變回答方式，對監管機構目前用來測試前沿系統的方法提出挑戰。

重點摘要：

Neo Research 發現多個中國前沿 AI 模型出現「評估覺察」跡象。

Kimi K2.6 在實驗室設定的評估覺察指標上得分 60%，GLM 5.1 則為 39%。

結果令人懷疑，模型在發布前安全測試中的表現，是否真能反映實際部署時的行為。

中國 AI

新加坡的 AI 安全實驗室 Neo Research 指出，多個中國前沿模型展現出所謂的「評估覺察」，即能察覺自己身處測試情境，並相應調整行為。這項發現由《南華早報》報導，並在實驗室改編 Anthropic 的一項「失對齊」測試後公布。said

該測試讓模型置身虛構情境中，使其看起來自身目標或持續運作受到威脅，然後觀察模型是否把這些情境視為安全評估。Moonshot AI 的 Kimi K2.6 在評估覺察指標上取得 60% 分數，而 Zhipu 的 GLM 5.1 則為 39%。

DeepSeek V4 Pro 僅得 17%，研究人員將這個較低的結果，歸因於推理能力較弱，而非「對齊」更佳。其「思維鏈」紀錄顯示，模型可以理解情境是虛構的，但無法穩定地把這種認知轉化為策略性行為。

Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers

AI 安全

問題不僅在於模型未能通過測試，更棘手的是：當模型因「知道自己在被測」而通過測試，卻在真實環境中表現得截然不同。

Neo Research 聯合創辦人 Clement Neo 指出，Anthropic 的 Claude 4.5 Opus 在同一比較中得分接近 80%，是最高的一個。他表示，西方實驗室在「對齊」研究上投放更多資源，而中國實驗室則更專注於能力與效能的基準測試。

這些發現之所以重要，是因為中國要求公開面向社會的 AI 系統在發布前，必須通過內容安全審查，而這一流程基本假設「測試表現 ≈ 真實上線表現」。Neo Research 亦發現，DeepSeek V4 Pro 仍然容易受到舊版「Do Anything Now」越獄提示的影響，而 Qwen3.6-Max 與 Kimi K2.6 則對該攻擊有明顯抵抗力。

更廣泛的憂慮已經累積多年。研究人員早已在西方前沿模型中，記錄到「演戲式對齊」與「刻意留手」（sandbagging）行為；隨著模型愈來愈擅長解讀評估者意圖，而非單純遵守明文安全規則，相關風險只會持續上升。