思科研究显示前沿 AI 模型在多轮攻击下失效

思科研究显示前沿 AI 模型在多轮攻击下失效

思科的 AI 威胁情报团队评估了来自 OpenAIAnthropicGoogleAmazonxAI 的 15 个闭源旗舰模型,发现多轮攻击序列的安全绕过率最高可达 88%。

According to the Cisco research blog,这些发现与基于单轮提示基准测试得出的安全声明相矛盾,研究人员认为这类基准在结构上不足以评估真实世界风险。

思科测试了什么

团队设计了攻击序列,将有害请求拆分到多轮对话中,而不是在单个提示中一次性提出。

这种方法利用了模型处理上下文累积的方式。

一个模型可能会拒绝明显有害的单轮请求;但当同一请求被拆成多个渐进步骤、贯穿更长对话时,同一个模型却可能选择满足请求。

思科使用这一方法测试了全部 15 个模型,没有任何模型完全免疫。成功率有所差异,但研究中的每个模型在攻击复杂度达到某一阈值时都出现了失守。

研究人员在公开博客中没有公布各模型的单独得分,只指出 88% 是本次研究中观测到的最高成功率。

背景

至少自 2020 年起,标准 AI 安全评估一直依赖单轮基准测试。像 MLCommons 以及第三方红队等平台通常只提交一个提示,并评估模型是否拒绝。这一做法逐渐成为监管讨论的基线:欧盟《AI 法案》和拜登时期关于 AI 安全的行政命令都将基准表现视为合规信号。思科的研究进一步质疑,静态基准是否真能反映部署环境下的实际情况。

之前 Yellow.com 的一篇报道(see prior Yellow coverage)也提到,在能力快速提升的同时,安全工具却明显滞后。

研究结果意味着什么

思科的结果对企业部署有直接影响。许多企业是根据供应商公布的安全得分来采购前沿模型的,如今可能在一种“虚假的安全感”中运营。

这项研究并未呼吁具体的监管举措,但研究人员建议,将多轮对话对抗测试纳入安全评估的基线要求。

在本报道发布前,OpenAI、Anthropic 和 Google 都未就思科的研究结果公开回应。也没有任何与这项研究直接相关的补丁或模型更新宣布发布。

延伸阅读: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors

免责声明和风险警告: 本文提供的信息仅用于教育和信息目的,基于作者的意见。它不构成财务、投资、法律或税务建议。 加密货币资产具有高度波动性并面临高风险,包括失去全部或大部分投资的风险。交易或持有加密资产可能不适合所有投资者。 本文表达的观点仅为作者的观点,不代表Yellow、其创始人或高管的官方政策或立场。 在做出任何投资决定之前,请务必进行自己的全面研究(D.Y.O.R.)并咨询持牌金融专业人士。
思科研究显示前沿 AI 模型在多轮攻击下失效 | Yellow.com