思科研究顯示前沿 AI 模型在多輪攻擊下防護失效

Cisco 的 AI 威脅情報團隊評估了 OpenAI、Anthropic、Google、Amazon 和 xAI 的 15 個封閉旗艦模型，發現多輪攻擊序列可以將安全防護繞過率推高至 88%。

According to the Cisco research blog，這項發現推翻了基於單一提示基準測試得出的安全聲稱；研究人員形容這類基準在評估真實世界風險時，在結構上是不足夠的。

思科測試了什麼

團隊設計了一系列攻擊，將一個有害請求拆散成多輪對話，而不是在單一提示中一次過提出。

這種方法利用的是模型處理「語境累積」的方式。

模型可能會拒絕一個明顯有害的單輪請求，但當同一個請求被拆解為多個循序漸進的步驟，分佈在較長的對話中時，同一個模型就可能會選擇配合。

思科以這種方法測試了全部 15 個模型，沒有任何一個模型完全免疫。成功率雖然各有差異，但研究中的每一個模型，在攻擊複雜度提升到某個門檻後都出現失守。

研究人員沒有在公開的部落格文章中披露個別模型的詳細分數，只指出 88% 是本研究中觀察到的最高成功率。

背景

至少自 2020 年起，標準的 AI 安全評估便一直依賴單輪基準測試。像 MLCommons 這類平台，以及第三方紅隊，通常只提交一條提示，然後評估模型是否拒絕作答。這種方法逐漸成為歐盟《AI 法案》及美國拜登政府 AI 安全行政命令中，監管討論的基準之一；兩者都將基準表現視為合規訊號。思科的研究進一步壯大了質疑聲音，認為靜態基準未必足以反映實際部署情境。

Yellow.com 之前的一篇報導（see prior Yellow coverage）曾談到，即使安全工具的發展落後於能力成長，相關問題仍在擴大。

研究結果意味著什麼

思科的結果對企業部署有直接影響。那些依賴供應商公佈安全分數而選擇前沿模型的公司，實際上可能處於一種錯誤的安全感之中。

這項研究並未呼籲採取任何具體的監管措施。研究人員建議，安全評估至少應將「多輪對話的對抗性測試」納入為基本要求。

在本報告發表前，OpenAI、Anthropic 和 Google 並未就思科的發現作出公開回應，也沒有因這項研究而宣布任何修補程式或模型更新。

延伸閱讀： Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors