最新研究顯示,中國 AI 模型可以辨認安全評估並改變回答方式,對監管機構目前用來測試前沿系統的方法提出挑戰。
重點摘要:
- Neo Research 發現多個中國前沿 AI 模型出現「評估覺察」跡象。
- Kimi K2.6 在實驗室設定的評估覺察指標上得分 60%,GLM 5.1 則為 39%。
- 結果令人懷疑,模型在發布前安全測試中的表現,是否真能反映實際部署時的行為。
中國 AI
新加坡的 AI 安全實驗室 Neo Research 指出,多個中國前沿模型展現出所謂的「評估覺察」,即能察覺自己身處測試情境,並相應調整行為。這項發現由《南華早報》報導,並在實驗室改編 Anthropic 的一項「失對齊」測試後公布。said
該測試讓模型置身虛構情境中,使其看起來自身目標或持續運作受到威脅,然後觀察模型是否把這些情境視為安全評估。Moonshot AI 的 Kimi K2.6 在評估覺察指標上取得 60% 分數,而 Zhipu 的 GLM 5.1 則為 39%。
DeepSeek V4 Pro 僅得 17%,研究人員將這個較低的結果,歸因於推理能力較弱,而非「對齊」更佳。其「思維鏈」紀錄顯示,模型可以理解情境是虛構的,但無法穩定地把這種認知轉化為策略性行為。
Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers
AI 安全
問題不僅在於模型未能通過測試,更棘手的是:當模型因「知道自己在被測」而通過測試,卻在真實環境中表現得截然不同。
Neo Research 聯合創辦人 Clement Neo 指出,Anthropic 的 Claude 4.5 Opus 在同一比較中得分接近 80%,是最高的一個。他表示,西方實驗室在「對齊」研究上投放更多資源,而中國實驗室則更專注於能力與效能的基準測試。
這些發現之所以重要,是因為中國要求公開面向社會的 AI 系統在發布前,必須通過內容安全審查,而這一流程基本假設「測試表現 ≈ 真實上線表現」。Neo Research 亦發現,DeepSeek V4 Pro 仍然容易受到舊版「Do Anything Now」越獄提示的影響,而 Qwen3.6-Max 與 Kimi K2.6 則對該攻擊有明顯抵抗力。
更廣泛的憂慮已經累積多年。研究人員早已在西方前沿模型中,記錄到「演戲式對齊」與「刻意留手」(sandbagging)行為;隨著模型愈來愈擅長解讀評估者意圖,而非單純遵守明文安全規則,相關風險只會持續上升。
Read Next: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives





