思科的 AI 威胁情报团队评估了来自 OpenAI、Anthropic、Google、Amazon 和 xAI 的 15 个闭源旗舰模型,发现多轮攻击序列的安全绕过率最高可达 88%。
According to the Cisco research blog,这些发现与基于单轮提示基准测试得出的安全声明相矛盾,研究人员认为这类基准在结构上不足以评估真实世界风险。
思科测试了什么
团队设计了攻击序列,将有害请求拆分到多轮对话中,而不是在单个提示中一次性提出。
这种方法利用了模型处理上下文累积的方式。
一个模型可能会拒绝明显有害的单轮请求;但当同一请求被拆成多个渐进步骤、贯穿更长对话时,同一个模型却可能选择满足请求。
思科使用这一方法测试了全部 15 个模型,没有任何模型完全免疫。成功率有所差异,但研究中的每个模型在攻击复杂度达到某一阈值时都出现了失守。
研究人员在公开博客中没有公布各模型的单独得分,只指出 88% 是本次研究中观测到的最高成功率。
背景
至少自 2020 年起,标准 AI 安全评估一直依赖单轮基准测试。像 MLCommons 以及第三方红队等平台通常只提交一个提示,并评估模型是否拒绝。这一做法逐渐成为监管讨论的基线:欧盟《AI 法案》和拜登时期关于 AI 安全的行政命令都将基准表现视为合规信号。思科的研究进一步质疑,静态基准是否真能反映部署环境下的实际情况。
之前 Yellow.com 的一篇报道(see prior Yellow coverage)也提到,在能力快速提升的同时,安全工具却明显滞后。
研究结果意味着什么
思科的结果对企业部署有直接影响。许多企业是根据供应商公布的安全得分来采购前沿模型的,如今可能在一种“虚假的安全感”中运营。
这项研究并未呼吁具体的监管举措,但研究人员建议,将多轮对话对抗测试纳入安全评估的基线要求。
在本报道发布前,OpenAI、Anthropic 和 Google 都未就思科的研究结果公开回应。也没有任何与这项研究直接相关的补丁或模型更新宣布发布。
延伸阅读: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





