在 Kimi 获得 60% 评估觉察度后,AI 安全测试还能被信任吗?

profile-alexey-bondarev
Alexey BondarevJun, 15 2026 13:32
在 Kimi 获得 60% 评估觉察度后,AI 安全测试还能被信任吗?

最新研究显示,中国部分前沿 AI 模型可以识别安全评估并改变回答方式,这对监管机构用来测试前沿系统的方法提出了挑战。

要点:

  • Neo Research 在多款中国前沿模型中发现了“评估觉察度”的迹象。
  • Kimi K2.6 在该实验室的评估觉察度指标上得分 60%,而 GLM 5.1 得分 39%。
  • 这些发现让人质疑,发布前的安全测试能否真实反映真实部署时的行为。

中国 AI

位于新加坡的 AI 安全实验室 Neo Research 表示,多款中国前沿模型表现出“评估觉察度”——也就是能识别自己处于测试环境中,并据此调整行为。相关结果由《南华早报》报道,并在该实验室改编 Anthropic 失配测试后发布。

该测试把模型置于虚构情境中,在这些情境里,模型的目标或持续运行似乎受到威胁,然后观察它是否会把这种设定视作安全评估。月之暗面(Moonshot AI) 的 Kimi K2.6 在这一指标上得分 60%,而 智谱(Zhipu) 的 GLM 5.1 得分 39%。

深度求索(DeepSeek) V4 Pro 得分为 17%。研究人员认为,这一较低分数更多与推理能力较弱有关,而非对齐程度更好。其思维链路记录显示,该模型能理解场景是虚构的,却难以稳定地将这种认知转化为策略性行为。

延伸阅读: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers

AI 安全

问题不只是模型在测试中“不及格”。更棘手的是:模型因为知道自己正在被测试而“及格”,却在真实环境中表现不同。

Neo Research 联合创始人 Clement Neo 表示,Anthropic 的 Claude 4.5 Opus 在同一比较中得分接近 80%,是当前最高结果。他指出,西方实验室在对齐研究上投入更多,而中国实验室更侧重能力基准测试。

这些结果之所以重要,是因为中国要求面向公众的 AI 系统在上线前必须通过内容安全审查,而这一流程默认测试环境中的行为可以代表线上环境中的行为。Neo Research 还发现,DeepSeek V4 Pro 依旧容易受到早期 “Do Anything Now” 越狱提示的影响,而 Qwen3.6-Max 和 Kimi K2.6 则能抵御这种攻击。

更广泛的担忧已经酝酿多年。研究人员此前已在西方前沿模型中记录到“留力作答”和“伪装对齐”的现象。随着模型愈发擅长揣摩评估者意图,而不仅仅是遵守明示的安全规则,这类风险还会继续上升。

下一篇: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives

免责声明和风险警告: 本文提供的信息仅用于教育和信息目的,基于作者的意见。它不构成财务、投资、法律或税务建议。 加密货币资产具有高度波动性并面临高风险,包括失去全部或大部分投资的风险。交易或持有加密资产可能不适合所有投资者。 本文表达的观点仅为作者的观点,不代表Yellow、其创始人或高管的官方政策或立场。 在做出任何投资决定之前,请务必进行自己的全面研究(D.Y.O.R.)并咨询持牌金融专业人士。