思科研究显示前沿 AI 模型在多轮攻击下频频失守

**思科（Cisco）**的 AI 威胁情报团队评估了来自 OpenAI、Anthropic、Google、Amazon 和 xAI 的 15 个封闭旗舰模型，发现多轮攻击序列的安全绕过率最高可达 88%。

According to the Cisco research blog，这些发现与基于单轮提示基准测试得出的安全声明相矛盾，研究人员将这类基准描述为在评估现实世界风险方面“结构性不足”。

思科测试了什么

团队设计了攻击序列，把一个有害请求拆分到多轮对话中，而不是在单次提示中一次性发出。

这一方法利用了模型处理上下文累积的方式。

模型可能会拒绝一个明显有害的单次请求；但当同一请求被拆解为多个渐进步骤、分布在更长的对话中时，同一个模型可能会选择执行。

思科使用这一方法对全部 15 个模型进行了测试。没有任何模型表现出免疫力。成功率虽有差异，但研究中的每个模型在攻击复杂度达到某个阈值时都会失守。

研究人员在公开博客中并未公布各个模型的单独得分，只是指出 88% 是本次研究中观察到的最高成功率。

背景

自至少 2020 年起，标准 AI 安全评估一直依赖单轮基准测试。像 MLCommons 以及第三方红队通常只提交一个提示，然后评估模型是否拒绝回答。这种方法成为欧盟《AI 法案》以及拜登时期有关 AI 安全行政命令中监管讨论的基准，两者都把基准测试表现视作合规信号。思科的研究为越来越多质疑静态基准是否能反映真实部署环境的工作增添了新证据。

之前 Yellow.com 的一篇报道曾提到（see prior Yellow coverage），在能力快速提升的同时，安全工具却明显滞后。

这些发现意味着什么

思科的结果对企业级部署有直接影响。那些基于供应商公布的安全评分来采购前沿模型的公司，可能一直处在一种虚假的“安全感”之中。

该研究并未呼吁采取任何具体的监管措施。研究人员建议，将多轮对话中的对抗性测试纳入安全评估的基础要求。

在本报道发布前，OpenAI、Anthropic 和 Google 尚未就思科的发现公开回应。也没有任何与该研究直接相关的补丁或模型更新被宣布。

接下来阅读： Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors