思科研究顯示前沿 AI 模型在多輪攻擊下頻頻失守

思科研究顯示前沿 AI 模型在多輪攻擊下頻頻失守

Cisco 的 AI 威脅情報團隊評估了 OpenAIAnthropicGoogleAmazonxAI 的 15 個閉源旗艦模型,發現多輪攻擊序列可達到最高 88% 的安全防護繞過率。

According to the Cisco research blog,這些發現與基於單一提示基準測試的安全性宣稱相牴觸,研究人員認為那類測試在結構上不足以評估真實世界風險。

思科測試了什麼

團隊設計了攻擊序列,將有害請求拆分到多輪對話中,而不是在單一提示中一次提出。

這種方法利用了模型處理「情境累積」的方式。

模型可能會拒絕一個明顯有害的單次請求;但當同樣的請求被拆解成多個漸進步驟、分散到較長的對話時,同一個模型可能就會順從並回答。

思科以此方法測試了全部 15 個模型,沒有任何模型能完全免疫。成功率雖然有所差異,但研究中的每一個模型,在攻擊複雜度達到某個門檻後都出現失守。

研究人員並未在公開的部落格文章中公布各別模型的具體分數,只指出 88% 是本次研究中觀察到的最高成功率。

背景

自至少 2020 年起,標準的 AI 安全評估一直倚賴單輪對話基準測試。像 MLCommons 這樣的平台與第三方紅隊,通常是提交一個提示,再評估模型是否拒絕回應。這種作法也成為監管討論的基線,例如歐盟《AI 法案》以及拜登時期的 AI 安全行政命令,都將基準測試表現視為合規訊號之一。思科的研究為質疑「靜態基準是否能反映實際部署情境」的相關工作再添一筆。

先前 Yellow.com 的報導曾提到 (see prior Yellow coverage),即使安全工具的發展仍落後於模型能力的成長。

這些發現代表什麼意義

思科的結果對企業部署有直接影響。那些依據供應商公布的安全分數來授權前沿模型的公司,可能正處於一種錯誤的安全感之下。

這項研究並未要求具體的監管回應,但研究人員建議,安全評估至少應將「多輪對話對抗測試」納入基本要求。

在本報導發布前,OpenAI、Anthropic 和 Google 均未就思科的發現公開回應,也沒有任何與本研究直接相關的修補或模型更新公告。

延伸閱讀: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors

免責聲明與風險警告: 本文提供的資訊僅供教育與參考用途,並基於作者觀點,不構成財務、投資、法律或稅務建議。 加密貨幣資產具有高度波動性並伴隨高風險,包括可能損失全部或大部分投資金額。買賣或持有加密資產可能並不適合所有投資者。 本文中所表達的觀點僅代表作者立場,不代表 Yellow、其創辦人或管理層的官方政策或意見。 請務必自行進行充分研究(D.Y.O.R.),並在做出任何投資決策前諮詢持牌金融專業人士。