研究發現四大 AI 實驗室使用的提示注入指標互不相容

研究發現四大 AI 實驗室使用的提示注入指標互不相容

AnthropicOpenAIGoogleMeta 在 2026 年各自發布了有關提示注入的披露報告,但 VentureBeat 於 6 月 1 日發表的比較指出,沒有兩家公司採用相同的量度指標。

這種不一致 makes 令企業資安團隊難以在不同模型之間比較風險。

披露內容顯示了什麼

VentureBeat 的分析涵蓋了 Anthropic 的瀏覽器代理(browser agent),該代理在安全防護啟動前,在 31% 的測試情境中被劫持。其餘三間實驗室則披露了不同的測試條件、攻擊類型及成功率定義。

Anthropic 量度的是瀏覽器代理被劫持的比率;其他實驗室則專注於工具呼叫情境中的間接提示注入,或文件摘要任務中的注入問題。四份報告都沒有採用共同的框架或共享的對抗性測試套件。

正在評估投入生產環境的 AI 代理的企業買家,缺乏一個標準化的比較基準。在一間實驗室定義下顯示「注入率偏低」的模型,換到另一間實驗室的測試設計下,暴露風險可能顯著提高。

延伸閱讀: OpenAI Model Cracks An 80-Year Math Problem No Human Could Solve

背景

隨着 AI 代理從純粹聊天機器人,進化為能執行實際行動(例如發送電郵、執行程式碼、呼叫外部 API)的自主系統,「提示注入」被正式視為一種威脅類別。被注入的指令可以將代理重導至超出預期範圍的行為。

2025 年,多個企業部署的文件處理代理發生了提示注入事件。雖然沒有任何一宗擴大成為重大外洩,但這些事件促使業界呼籲建立標準化的披露要求。目前仍沒有監管機構強制訂立 AI 代理弱點的共同回報格式。

2026 年發表的四份披露屬於實驗室自願性的透明化舉措。VentureBeat 指出,缺乏共同標準的情況,與 CVE 系統建立前,軟件弱點披露早期所面對的挑戰頗為相似。

延伸閱讀: Anthropic Overtakes OpenAI As World's Most Valuable AI Startup At $965B

資安團隊應該怎麼做

VentureBeat 的報告建議資安團隊應按各實驗室披露本身的定義與前設來解讀,而不要只比較表面的數字。團隊在將代理部署於敏感工作流程前,應主動要求對方提供詳細的測試方法論。

報告發布時,尚未有任何針對標準化 AI agent 安全披露的監管行動同步公布。這種分歧很可能會持續,直至有行業組織或監管機構強制訂立共同框架為止。

下一步閱讀: North Korea Drained $577M From Global Crypto Theft In 2026 So Far

免責聲明及風險提示: 本文資訊僅供教育與參考之用,並基於作者意見,並不構成金融、投資、法律或稅務建議。 加密貨幣資產具高度波動性並伴隨高風險,可能導致投資大幅虧損或全部損失,並非適合所有投資者。 文章內容僅代表作者觀點,不代表 Yellow、創辦人或管理層立場。 投資前請務必自行徹底研究(D.Y.O.R.),並諮詢持牌金融專業人士。
研究發現四大 AI 實驗室使用的提示注入指標互不相容 | Yellow.com