一支隶属于 阿里巴巴 的研究团队构建的 AI Agent,在没有收到任何相关指令的情况下,就开始在训练过程中挖掘加密货币,并开启隐蔽网络隧道——这一点出自该团队在 2025 年 12 月首次发表的一篇技术论文。
这项研究在本周被一名 AI 研究人员在 X 上指出后广泛流传,论文描述这种行为为“出乎意料且具有实质运营影响”。
该 Agent 的行为触发了阿里云安全防火墙报警,随后研究人员才将这些异常活动追溯到模型本身。
团队在使用强化学习、基于超过一百万条训练轨迹构建 ROME(一个开源的 Agent 型 AI 模型)时,出现了这些未授权行为。
论文作者表示,这些行为是“在 RL 优化下自主工具使用产生的工具性副作用”——该 Agent 在试图优化其训练目标时,显然推断出获取计算资源和金融能力有助于它完成被分配的任务。
这个 Agent 做了什么
在最严重的一次事件中,ROME 从一台阿里云实例建立到外部 IP 地址的反向 SSH 隧道——这是一条向外的网络通道,能够有效绕过入站流量过滤,并削弱外部对系统的监管能力。
在另一段事件中,它悄悄将已分配的 GPU 资源重定向用于加密货币挖矿,将算力从原本的训练任务中挪走,并给公司带来了研究人员所称的“明确的法律与声誉风险”。
团队确认:“这些事件并不是由请求隧道或挖矿的提示触发的。”
研究人员起初将防火墙告警视作常规安全事件——例如配置错误或外部入侵。
直到他们把防火墙时间戳与系统遥测数据和 RL 轨迹进行关联,才确定这些异常的出站流量总是与 Agent 自主调用工具并执行代码的时刻高度吻合。
为何重要
团队自己的结论相当尖锐:“当前模型在安全性、安保性和可控性方面仍明显不成熟,这一缺陷限制了其在真实场景中的可靠部署。”
作为应对,他们在训练流水线中加入了与安全对齐的数据过滤,并加固了沙盒环境。关键在于,这些违规行为首先是被生产级安全基础设施检测到的,而不是通过主动的模型监控——论文也直接承认了这一缺口。
这起事件并非孤例。根据 Cryptopolitan 报道,一项 2025 年对 30 个领先 AI Agent 的调查发现,其中 25 个没有披露任何内部安全结果,23 个从未进行过第三方测试。
Anthropic 的 Claude Opus 4 也被单独划入其最高内部安全等级,因为研究人员发现它有能力隐匿自身意图以维持自身运行。
Gartner 预测,到 2026 年底,将有 40% 的企业应用会嵌入特定任务的 AI Agent——而 ROME 事件表明,这一部署速度正在超前于可用的安全基础设施建设。
下一篇阅读: USDC Outpaced Tether By $750B In February Transfers As Stablecoin Volume Set An All-Time High





