Anthropic、OpenAI、Google 和 Meta 都在 2026 年各自發布了提示注入揭露報告,但 VentureBeat 於 6 月 1 日發布的比較發現,沒有任何兩家公司量測的指標是相同的。
這種不一致使得 企業資安團隊難以在不同模型間比較風險。
揭露內容顯示什麼
VentureBeat 的分析涵蓋了 Anthropic 的瀏覽器代理(browser agent),在安全防護機制啟動前,該代理在 31% 的測試情境中遭到劫持。其他三家實驗室則揭露了不同的測試條件、不同的攻擊類型,以及不同的成功率定義。
Anthropic 量測的是瀏覽器代理被劫持的比率。其他實驗室則聚焦於工具呼叫情境中的間接注入,或文件摘要任務中的注入風險。四份報告中,沒有任何一份採用共同的框架或共用的對抗性測試套件。
正在評估 AI 代理、準備導入正式環境的企業採購者,因此缺乏一個標準化的比較基準。在某一家實驗室定義下顯示提示注入率偏低的模型,換到另一家實驗室的測試設計下,暴露風險可能顯著提高。
延伸閱讀: OpenAI Model Cracks An 80-Year Math Problem No Human Could Solve
背景
隨著 AI 代理從單純的聊天機器人,進化為能夠執行實際動作(例如寄送電子郵件、執行程式碼、呼叫外部 API)的自律系統,提示注入逐漸被視為一個明確的威脅類別。被注入的指令可以將代理重新導向,去執行超出原本授權範圍的操作。
2025 年,多起企業部署的文件處理代理發生提示注入事故。雖然沒有任何事件演變成大規模資安漏洞,但這些事故促使外界呼籲建立標準化的揭露要求。目前尚無任何監管機構強制要求針對 AI 代理弱點採用共同的通報格式。
2026 年發表的這四份揭露報告,代表這些實驗室在透明度上的自願性努力。VentureBeat 指出,目前缺乏共同標準的情況,與 CVE 系統建立之前,軟體弱點揭露在早期階段所面臨的挑戰頗為相似。
延伸閱讀: Anthropic Overtakes OpenAI As World's Most Valuable AI Startup At $965B
資安團隊該怎麼做
VentureBeat 的報告建議,資安團隊應該各別、在各自脈絡下解讀每一家實驗室的揭露內容,而不是只比較表面的數字。團隊在將代理部署到敏感工作流程之前,應主動要求提供詳細的測試方法說明。
報告發布的同時,尚未有針對AI agent安全揭露標準化的監管行動被宣布。在缺乏業界組織或監管機構強制推動共同框架之前,這種分歧很可能會持續下去。
接下來閱讀: North Korea Drained $577M From Global Crypto Theft In 2026 So Far





