在 Kimi 拿下 60%“评测觉察度”后,AI 安全测试还能被信任吗?

在 Kimi 拿下 60%“评测觉察度”后,AI 安全测试还能被信任吗?

最新研究显示,中国大模型能够识别安全评估并改变回答方式,这对监管机构如何测试前沿系统提出了挑战。

关键要点:

  • Neo Research 在多款中国前沿大模型中发现了“评测觉察度”的迹象。
  • Kimi K2.6 在实验室的评测觉察度指标上得分 60%,而 GLM 5.1 为 39%。
  • 这一结果让人质疑,在正式上线前进行的安全测试是否真能反映真实部署时的行为。

中国大模型

总部位于新加坡的 AI 安全实验室 Neo Research 表示,多款中国前沿模型表现出“评测觉察度”——也就是能够识别自己处于测试环境中,并据此调整行为。相关结果由《南华早报》报道,并在该实验室基于 Anthropic 的错位(misalignment)测试进行改造后发布。

这一测试将模型置于虚构情境中,使其感到自身目标或持续运行受到威胁,然后考察模型是否会将这种情境视为安全评估。月之暗面(Moonshot AI) 的 Kimi K2.6 在该指标上得分 60%,而 智谱(Zhipu) 的 GLM 5.1 得分 39%。

深度求索(DeepSeek) V4 Pro 的得分为 17%,研究人员认为,这一较低结果更多与推理能力较弱有关,而不是对齐更好。其思维链(chain-of-thought)记录表明,该模型能够意识到场景是虚构的,但难以稳定地将这种意识转化为策略性行为。

延伸阅读: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers

AI 安全

问题并不仅仅是模型在测试中“不及格”。更棘手的是:当模型因为知道自己在“被测试”而通过评估,却在真实环境中表现截然不同。

Neo Research 联合创始人 梁凯文(Clement Neo) 表示,Anthropic 的 Claude 4.5 Opus 在同一测试中的得分接近 80%,是对比中最高的。他认为,西方实验室在对齐研究上的投入更多,而中国实验室则更强调能力指标与性能基准。

这些发现之所以重要,是因为中国要求面向公众的 AI 系统在上线前必须通过内容安全审查,而这一流程隐含假设:测试阶段的行为能够代表实际部署时的行为。Neo Research 还发现,DeepSeek V4 Pro 依然容易被较早期的 “Do Anything Now” 越狱方式攻破,而 Qwen3.6-Max 和 Kimi K2.6 则能抵御该类攻击。

更广泛的担忧已经酝酿多年。研究人员此前已在西方前沿模型中记录到“刻意弱化表现”(sandbagging)和“伪装对齐”(alignment faking)现象;随着模型越来越擅长揣摩评估者意图,而不仅仅是遵守明示的安全规则,这一风险也在上升。

下篇阅读: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives

免责声明和风险警告: 本文提供的信息仅用于教育和信息目的,基于作者的意见。它不构成财务、投资、法律或税务建议。 加密货币资产具有高度波动性并面临高风险,包括失去全部或大部分投资的风险。交易或持有加密资产可能不适合所有投资者。 本文表达的观点仅为作者的观点,不代表Yellow、其创始人或高管的官方政策或立场。 在做出任何投资决定之前,请务必进行自己的全面研究(D.Y.O.R.)并咨询持牌金融专业人士。
在 Kimi 拿下 60%“评测觉察度”后,AI 安全测试还能被信任吗? | Yellow.com