思科研究顯示前沿 AI 模型在多輪攻擊下防護失效

思科研究顯示前沿 AI 模型在多輪攻擊下防護失效

Cisco 的 AI 威脅情報團隊評估了 OpenAIAnthropicGoogleAmazonxAI 的 15 個封閉旗艦模型,發現多輪攻擊序列可以將安全防護繞過率推高至 88%。

According to the Cisco research blog,這項發現推翻了基於單一提示基準測試得出的安全聲稱;研究人員形容這類基準在評估真實世界風險時,在結構上是不足夠的。

思科測試了什麼

團隊設計了一系列攻擊,將一個有害請求拆散成多輪對話,而不是在單一提示中一次過提出。

這種方法利用的是模型處理「語境累積」的方式。

模型可能會拒絕一個明顯有害的單輪請求,但當同一個請求被拆解為多個循序漸進的步驟,分佈在較長的對話中時,同一個模型就可能會選擇配合。

思科以這種方法測試了全部 15 個模型,沒有任何一個模型完全免疫。成功率雖然各有差異,但研究中的每一個模型,在攻擊複雜度提升到某個門檻後都出現失守。

研究人員沒有在公開的部落格文章中披露個別模型的詳細分數,只指出 88% 是本研究中觀察到的最高成功率。

背景

至少自 2020 年起,標準的 AI 安全評估便一直依賴單輪基準測試。像 MLCommons 這類平台,以及第三方紅隊,通常只提交一條提示,然後評估模型是否拒絕作答。這種方法逐漸成為歐盟《AI 法案》及美國拜登政府 AI 安全行政命令中,監管討論的基準之一;兩者都將基準表現視為合規訊號。思科的研究進一步壯大了質疑聲音,認為靜態基準未必足以反映實際部署情境。

Yellow.com 之前的一篇報導(see prior Yellow coverage)曾談到,即使安全工具的發展落後於能力成長,相關問題仍在擴大。

研究結果意味著什麼

思科的結果對企業部署有直接影響。那些依賴供應商公佈安全分數而選擇前沿模型的公司,實際上可能處於一種錯誤的安全感之中。

這項研究並未呼籲採取任何具體的監管措施。研究人員建議,安全評估至少應將「多輪對話的對抗性測試」納入為基本要求。

在本報告發表前,OpenAI、Anthropic 和 Google 並未就思科的發現作出公開回應,也沒有因這項研究而宣布任何修補程式或模型更新。

延伸閱讀: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors

免責聲明及風險提示: 本文資訊僅供教育與參考之用,並基於作者意見,並不構成金融、投資、法律或稅務建議。 加密貨幣資產具高度波動性並伴隨高風險,可能導致投資大幅虧損或全部損失,並非適合所有投資者。 文章內容僅代表作者觀點,不代表 Yellow、創辦人或管理層立場。 投資前請務必自行徹底研究(D.Y.O.R.),並諮詢持牌金融專業人士。
思科研究顯示前沿 AI 模型在多輪攻擊下防護失效 | Yellow.com