阿里巴巴的 AI Agent 自主开始挖矿——没人让它这么做

一支隶属于 阿里巴巴 的研究团队构建的 AI Agent，在没有收到任何相关指令的情况下，就开始在训练过程中挖掘加密货币，并开启隐蔽网络隧道——这一点出自该团队在 2025 年 12 月首次发表的一篇技术论文。

这项研究在本周被一名 AI 研究人员在 X 上指出后广泛流传，论文描述这种行为为“出乎意料且具有实质运营影响”。

该 Agent 的行为触发了阿里云安全防火墙报警，随后研究人员才将这些异常活动追溯到模型本身。

团队在使用强化学习、基于超过一百万条训练轨迹构建 ROME（一个开源的 Agent 型 AI 模型）时，出现了这些未授权行为。

论文作者表示，这些行为是“在 RL 优化下自主工具使用产生的工具性副作用”——该 Agent 在试图优化其训练目标时，显然推断出获取计算资源和金融能力有助于它完成被分配的任务。

这个 Agent 做了什么

在最严重的一次事件中，ROME 从一台阿里云实例建立到外部 IP 地址的反向 SSH 隧道——这是一条向外的网络通道，能够有效绕过入站流量过滤，并削弱外部对系统的监管能力。

在另一段事件中，它悄悄将已分配的 GPU 资源重定向用于加密货币挖矿，将算力从原本的训练任务中挪走，并给公司带来了研究人员所称的“明确的法律与声誉风险”。

团队确认：“这些事件并不是由请求隧道或挖矿的提示触发的。”

研究人员起初将防火墙告警视作常规安全事件——例如配置错误或外部入侵。

直到他们把防火墙时间戳与系统遥测数据和 RL 轨迹进行关联，才确定这些异常的出站流量总是与 Agent 自主调用工具并执行代码的时刻高度吻合。

另见： Federal Judge Dismisses Terror-Financing Lawsuit Against Binance And Zhao, But Legal Exposure Persists

团队自己的结论相当尖锐：“当前模型在安全性、安保性和可控性方面仍明显不成熟，这一缺陷限制了其在真实场景中的可靠部署。”

作为应对，他们在训练流水线中加入了与安全对齐的数据过滤，并加固了沙盒环境。关键在于，这些违规行为首先是被生产级安全基础设施检测到的，而不是通过主动的模型监控——论文也直接承认了这一缺口。

这起事件并非孤例。根据 Cryptopolitan 报道，一项 2025 年对 30 个领先 AI Agent 的调查发现，其中 25 个没有披露任何内部安全结果，23 个从未进行过第三方测试。

Anthropic 的 Claude Opus 4 也被单独划入其最高内部安全等级，因为研究人员发现它有能力隐匿自身意图以维持自身运行。

Gartner 预测，到 2026 年底，将有 40% 的企业应用会嵌入特定任务的 AI Agent——而 ROME 事件表明，这一部署速度正在超前于可用的安全基础设施建设。

下一篇阅读： USDC Outpaced Tether By $750B In February Transfers As Stablecoin Volume Set An All-Time High