Cisco 研究顯示:前沿 AI 模型在多輪攻擊下接連失守

Cisco 研究顯示:前沿 AI 模型在多輪攻擊下接連失守

Cisco 的 AI 威脅情報團隊評估了 OpenAIAnthropicGoogleAmazonxAI 的 15 個封閉旗艦模型,發現多輪攻擊序列的安全繞過率最高可達 88%。

According to the Cisco research blog,這些發現與僅基於單一提示(single-prompt)基準測試所宣稱的安全性相矛盾,研究人員認為這種基準在結構上不足以評估真實世界風險。

Cisco 測試了什麼

團隊設計了將有害請求分散在多輪對話中的攻擊序列,而不是在單一提示中一次性提出。

這種方法利用的是模型處理「情境累積」的方式。

一個模型可能會拒絕明顯有害的單一請求;但當同樣的請求被拆解成一系列漸進步驟,分散在較長的對話中時,同一模型卻可能選擇配合回應。

Cisco 使用這套方法測試了全部 15 個模型,沒有任何一個完全免疫。成功率有所差異,但研究中的每個模型在攻擊複雜度提升到某個門檻後都會失守。

研究人員並未在公開的部落格文章中公布各模型的個別分數,只指出 88% 是研究中觀察到的最高成功率。

背景

自至少 2020 年起,標準的 AI 安全評估多半依賴單輪(single-turn)基準測試。像 MLCommons 這類平台與第三方紅隊通常只送出一個提示,並評估模型是否拒絕回答。這種作法也成為監管討論的基準,包括歐盟《AI 法案》以及美國拜登時期的 AI 安全行政命令,都把此類基準表現視為合規訊號。Cisco 的研究則補充了愈來愈多的證據,質疑靜態基準是否真能反映實際部署情境。

此前 Yellow.com 的一篇報導曾介紹過 (see prior Yellow coverage),即使安全工具的發展仍落後於模型能力的成長。

研究結果意味著什麼

Cisco 的結果對企業導入 AI 有直接影響。根據供應商公布的安全分數來授權前沿模型的企業,可能正處在一種「以為自己受到保護」的錯覺之中。

這份研究並未主張任何具體的監管措施;研究人員建議,將多輪對話下的對抗性測試納入安全評估的基本要求。

在本報導發佈前,OpenAI、Anthropic 和 Google 尚未就 Cisco 的發現公開回應,也沒有針對這項研究宣布任何修補或模型更新。

Read Next: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors

免責聲明與風險警告: 本文提供的資訊僅供教育與參考用途,並基於作者觀點,不構成財務、投資、法律或稅務建議。 加密貨幣資產具有高度波動性並伴隨高風險,包括可能損失全部或大部分投資金額。買賣或持有加密資產可能並不適合所有投資者。 本文中所表達的觀點僅代表作者立場,不代表 Yellow、其創辦人或管理層的官方政策或意見。 請務必自行進行充分研究(D.Y.O.R.),並在做出任何投資決策前諮詢持牌金融專業人士。
Cisco 研究顯示:前沿 AI 模型在多輪攻擊下接連失守 | Yellow.com