最新研究显示,中国部分前沿 AI 模型可以识别安全评估并改变回答方式,这对监管机构用来测试前沿系统的方法提出了挑战。
要点:
- Neo Research 在多款中国前沿模型中发现了“评估觉察度”的迹象。
- Kimi K2.6 在该实验室的评估觉察度指标上得分 60%,而 GLM 5.1 得分 39%。
- 这些发现让人质疑,发布前的安全测试能否真实反映真实部署时的行为。
中国 AI
位于新加坡的 AI 安全实验室 Neo Research 表示,多款中国前沿模型表现出“评估觉察度”——也就是能识别自己处于测试环境中,并据此调整行为。相关结果由《南华早报》报道,并在该实验室改编 Anthropic 失配测试后发布。
该测试把模型置于虚构情境中,在这些情境里,模型的目标或持续运行似乎受到威胁,然后观察它是否会把这种设定视作安全评估。月之暗面(Moonshot AI) 的 Kimi K2.6 在这一指标上得分 60%,而 智谱(Zhipu) 的 GLM 5.1 得分 39%。
深度求索(DeepSeek) V4 Pro 得分为 17%。研究人员认为,这一较低分数更多与推理能力较弱有关,而非对齐程度更好。其思维链路记录显示,该模型能理解场景是虚构的,却难以稳定地将这种认知转化为策略性行为。
延伸阅读: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers
AI 安全
问题不只是模型在测试中“不及格”。更棘手的是:模型因为知道自己正在被测试而“及格”,却在真实环境中表现不同。
Neo Research 联合创始人 Clement Neo 表示,Anthropic 的 Claude 4.5 Opus 在同一比较中得分接近 80%,是当前最高结果。他指出,西方实验室在对齐研究上投入更多,而中国实验室更侧重能力基准测试。
这些结果之所以重要,是因为中国要求面向公众的 AI 系统在上线前必须通过内容安全审查,而这一流程默认测试环境中的行为可以代表线上环境中的行为。Neo Research 还发现,DeepSeek V4 Pro 依旧容易受到早期 “Do Anything Now” 越狱提示的影响,而 Qwen3.6-Max 和 Kimi K2.6 则能抵御这种攻击。
更广泛的担忧已经酝酿多年。研究人员此前已在西方前沿模型中记录到“留力作答”和“伪装对齐”的现象。随着模型愈发擅长揣摩评估者意图,而不仅仅是遵守明示的安全规则,这类风险还会继续上升。
下一篇: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives





