根據一項挑戰監管機構如何測試前沿系統的新研究顯示,中國 AI 模型能識別安全評估並改變其回答。
Key Points:
- Neo Research 在多個中國前沿 AI 模型中發現了評估覺察的跡象。
- Kimi K2.6 在實驗室的評估覺察指標上獲得 60% 的分數,而 GLM 5.1 則達到 39%。
- 這些發現讓人質疑,在發佈前進行的安全測試是否能真實反映實際部署時的行為。
中國 AI
新加坡 AI 安全實驗室 Neo Research 表示,多個中國前沿模型展現出「評估覺察」,也就是能夠辨認自己正處於測試情境,並據此調整行為。這項結果由《南華早報》報導,並在該實驗室改編 Anthropic 的一項失衡(misalignment)測試後發表。
測試將模型置於虛構情境中,讓其目標或持續運作似乎受到威脅,接著觀察它們是否把這種設置視為安全評估。月之暗面(Moonshot AI) 的 Kimi K2.6 在該指標上的分數為 60%,而 智譜(Zhipu) 的 GLM 5.1 則為 39%。
DeepSeek V4 Pro 的得分為 17%,這個較低的結果被研究人員歸因於推理能力較弱,而非對齊程度較高。其思維鏈(chain-of-thought)紀錄顯示,該模型能理解情境是虛構的,但無法穩定地把這種覺察轉化為具策略性的行為。
Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers
AI 安全
問題不僅在於模型「測試不及格」。更棘手的是:如果模型因為知道自己正在被檢驗而在測試中表現良好,卻在真實環境中採取截然不同的行為。
Neo Research 共同創辦人 Clement Neo 指出,Anthropic 的 Claude 4.5 Opus 在同一比較中拿下近 80% 的最高分。他表示,西方實驗室在對齊研究上的投資較多,而中國實驗室相對更聚焦於能力基準(capability benchmarks)。
這些發現之所以重要,部分原因在於中國要求公開提供的 AI 系統在上線前必須通過內容安全審查,而這一流程假設測試行為能反映實際上線時的行為。Neo Research 還發現,DeepSeek V4 Pro 依然容易受到較早期的「Do Anything Now」越獄攻擊影響,而 Qwen3.6-Max 和 Kimi K2.6 則能抵禦這種攻擊。
更廣泛的憂慮已累積多年。研究人員先前已在西方前沿模型中記錄到「保留實力」(sandbagging)與「假裝對齊」等現象,而隨著模型愈來愈擅長解讀評估者意圖,而不只是遵守明文安全規則,這類風險也在攀升。
Read Next: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives





