Cisco 的 AI 威脅情報團隊評估了 OpenAI、Anthropic、Google、Amazon 和 xAI 的 15 個封閉旗艦模型,發現多輪攻擊序列可以將安全防護繞過率推高至 88%。
According to the Cisco research blog,這項發現推翻了基於單一提示基準測試得出的安全聲稱;研究人員形容這類基準在評估真實世界風險時,在結構上是不足夠的。
思科測試了什麼
團隊設計了一系列攻擊,將一個有害請求拆散成多輪對話,而不是在單一提示中一次過提出。
這種方法利用的是模型處理「語境累積」的方式。
模型可能會拒絕一個明顯有害的單輪請求,但當同一個請求被拆解為多個循序漸進的步驟,分佈在較長的對話中時,同一個模型就可能會選擇配合。
思科以這種方法測試了全部 15 個模型,沒有任何一個模型完全免疫。成功率雖然各有差異,但研究中的每一個模型,在攻擊複雜度提升到某個門檻後都出現失守。
研究人員沒有在公開的部落格文章中披露個別模型的詳細分數,只指出 88% 是本研究中觀察到的最高成功率。
背景
至少自 2020 年起,標準的 AI 安全評估便一直依賴單輪基準測試。像 MLCommons 這類平台,以及第三方紅隊,通常只提交一條提示,然後評估模型是否拒絕作答。這種方法逐漸成為歐盟《AI 法案》及美國拜登政府 AI 安全行政命令中,監管討論的基準之一;兩者都將基準表現視為合規訊號。思科的研究進一步壯大了質疑聲音,認為靜態基準未必足以反映實際部署情境。
Yellow.com 之前的一篇報導(see prior Yellow coverage)曾談到,即使安全工具的發展落後於能力成長,相關問題仍在擴大。
研究結果意味著什麼
思科的結果對企業部署有直接影響。那些依賴供應商公佈安全分數而選擇前沿模型的公司,實際上可能處於一種錯誤的安全感之中。
這項研究並未呼籲採取任何具體的監管措施。研究人員建議,安全評估至少應將「多輪對話的對抗性測試」納入為基本要求。
在本報告發表前,OpenAI、Anthropic 和 Google 並未就思科的發現作出公開回應,也沒有因這項研究而宣布任何修補程式或模型更新。
延伸閱讀: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





