Cisco 研究顯示前沿 AI 模型在多輪攻擊下失守

Cisco 研究顯示前沿 AI 模型在多輪攻擊下失守

Cisco 的 AI 威脅情報團隊評估了 OpenAIAnthropicGoogleAmazonxAI 的 15 個封閉旗艦模型,發現多輪攻擊序列的安全繞過率最高可達 88%。

According to the Cisco research blog,這些發現與只依賴單一提示(single-prompt)基準測試的安全聲明相互矛盾,研究人員形容該類基準在評估真實世界風險方面在結構上是不足的。

Cisco 測試了什麼

團隊設計了將有害請求分散到多輪對話中的攻擊序列,而不是在單一提示中一次性提出。

這種方法是利用模型處理「情境累積」的方式。

模型可能會拒絕一個明顯有害的單次請求,但當這個請求被拆解成多個漸進步驟,分布在較長的對話中時,同一個模型卻可能選擇回應。

Cisco 以這種方法測試全部 15 個模型。沒有任何模型能完全免疫。雖然成功率有所差異,但研究中的每一個模型在攻擊複雜度達到某一門檻後都會失守。

研究人員並未在公開的部落格貼文中公布各模型的個別分數,只指出 88% 是研究中觀察到的最高成功率。

背景

自至少 2020 年起,標準的 AI 安全評估一直依賴單輪對話基準測試。像 MLCommons 這類平台以及第三方紅隊通常只提交一個提示,然後評估模型是否拒絕回答。這種方式成為監管討論的基準,包括歐盟《AI 法案》與拜登時期的 AI 安全行政命令,兩者都以基準測試表現作為合規訊號。Cisco 的研究進一步質疑,這些靜態基準是否真能反映實際部署情境。

先前 Yellow.com 的一篇報導曾提到(see prior Yellow coverage),即便安全工具的發展落後於能力的成長。

研究結果意味著什麼

Cisco 的結果對企業部署有直接影響。那些根據供應商公布的安全分數來授權前沿模型的公司,可能正運作在一種錯誤的安全感之下。

該研究並未呼籲具體的監管措施。研究人員建議,安全評估至少應將多輪對抗測試納入基本要求。

在本報告發布前,OpenAI、Anthropic 和 Google 都未就 Cisco 的發現公開回應。也沒有與這項研究相關的修補程式或模型更新被宣布。

延伸閱讀: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors

免責聲明及風險提示: 本文資訊僅供教育與參考之用,並基於作者意見,並不構成金融、投資、法律或稅務建議。 加密貨幣資產具高度波動性並伴隨高風險,可能導致投資大幅虧損或全部損失,並非適合所有投資者。 文章內容僅代表作者觀點,不代表 Yellow、創辦人或管理層立場。 投資前請務必自行徹底研究(D.Y.O.R.),並諮詢持牌金融專業人士。
Cisco 研究顯示前沿 AI 模型在多輪攻擊下失守 | Yellow.com