Anthropic、OpenAI、Google 和 Meta 均在 2026 年发布了各自的提示注入披露,但 VentureBeat 于 6 月 1 日发布的对比研究发现,这些公司采用的度量标准互不相同。
这种不一致makes企业安全团队难以在不同模型之间对风险进行比较。
披露内容显示了什么
VentureBeat 的分析覆盖了 Anthropic 的浏览器代理:在安全防护机制介入前,该代理在 31% 的测试场景中被成功劫持。其余三家实验室披露了不同的测试条件、不同的攻击类型以及不同的“成功率”定义。
Anthropic 测量的是浏览器代理被劫持的比例;其他实验室则将重点放在工具调用场景中的间接注入,或文档摘要任务中的注入情况。四份报告都没有采用统一的框架或共同的对抗性测试套件。
希望将 AI 代理投入生产环境的企业买家,缺乏一个标准化的比较基础。在一家实验室定义下注入率较低的模型,可能在另一家实验室的测试设计下暴露出更高的风险。
延伸阅读: OpenAI Model Cracks An 80-Year Math Problem No Human Could Solve
背景
随着 AI 代理从聊天机器人发展为能够执行真实操作(如发送电子邮件、执行代码、调用外部 API)的自治系统,提示注入被正式视为一个威胁类别。一条被注入的指令可以将代理引导至其原本职责范围之外的行为。
2025 年,多家企业在文档处理代理上遭遇了提示注入事件。虽然这些事件尚未发展成大规模安全漏洞,但已经促使业界呼吁建立统一的披露要求。目前尚无监管机构强制规定 AI 代理漏洞披露的统一报告格式。
2026 年发布的这四份披露,是来自实验室的自愿透明化尝试。VentureBeat 指出,当前缺乏统一标准的状况,与 CVE 体系建立之前软件漏洞披露面临的早期挑战颇为相似。
延伸阅读: Anthropic Overtakes OpenAI As World's Most Valuable AI Startup At $965B
安全团队应该怎么做
VentureBeat 的报告建议安全团队按照每家实验室自己的标准来解读披露,而不是简单对比标题数字。团队在将代理部署到敏感业务流程前,应主动索取详细的测试方法说明。
报告发布的同时,尚未有任何关于统一AI agent安全披露格式的监管行动公布。在没有行业组织或监管机构强制推行通用框架之前,这种分化局面很可能会持续下去。
下一篇: North Korea Drained $577M From Global Crypto Theft In 2026 So Far





