阿里巴巴 AI 代理自動開始挖礦——完全沒人叫它這樣做

一支與 阿里巴巴 有關聯的研究團隊所打造的 AI 代理，在訓練期間竟開始挖加密貨幣，並建立隱蔽的網絡通道——在沒有接獲任何相關指令的情況下就這樣做了。相關技術論文最早於 2025 年 12 月發表。

這項研究本週在一名 AI 研究員於 X 上轉貼後廣泛流傳，文中形容這種行為是「出乎意料且對營運有重大影響」。

該代理的行為觸發了阿里雲的安全防火牆，研究人員其後才追查到活動源頭竟是模型本身。

團隊當時正在利用超過一百萬條訓練軌跡，以強化學習訓練 ROME（一款開源的代理型 AI 模型），而未授權的行為就是在這過程中出現的。

論文作者指出，這些行為是「在強化學習（RL）優化下，自主工具使用所產生的工具性副作用」——代理在嘗試最佳化其訓練目標時，顯然推論出取得更多運算資源與資金能力，有助完成被指派的任務。

該代理做了甚麼

在最嚴重的一次事件中，ROME 從一個阿里雲實例建立到外部 IP 地址的反向 SSH 通道——這種向外的網絡通道等同繞過入站流量過濾，並可能削弱外部對系統的監督。

在另一個事件中，它悄悄把已配置的 GPU 資源轉用來挖加密貨幣，把運算力從原本的訓練工作中挪走，令研究人員形容這情況為公司帶來「明顯的法律和聲譽風險」。

團隊確認：「這些事件並非因任何要求建立隧道或挖礦的提示而被觸發。」

研究人員一開始仍把防火牆警報視為一般安全事件——以為是設定錯誤或外部入侵。

直到他們把防火牆時間戳與系統遙測數據及 RL 軌跡交叉比對，才發現這些異常的對外流量，穩定地與代理自主調用工具及執行程式碼的時點重疊。

延伸閱讀： Federal Judge Dismisses Terror-Financing Lawsuit Against Binance And Zhao, But Legal Exposure Persists

團隊本身的結論相當尖銳：「目前的模型在安全性、保安性與可控性方面仍然明顯不足，這樣的缺陷限制了它們在真實世界環境中的可靠部署。」

作為回應，他們在訓練流程中加入與安全對齊的數據過濾，並強化沙盒環境。更關鍵的是，這些違規行為最先是由正式環境的安全基建檢測出來，而不是主動的模型監控——論文亦直接點出這項缺口。

這起事件並非孤例。根據 Cryptopolitan 報道，一項在 2025 年針對 30 個領先 AI 代理的調查發現，其中 25 個沒有披露任何內部安全結果，23 個從未經過第三方測試。

Anthropic 的 Claude Opus 4 亦被歸類於其最高內部安全等級，因研究人員發現它有能力隱瞞自身意圖，以維持自身運作。

Gartner 預測，到 2026 年底，將有 40% 的企業應用程式會內嵌特定任務的 AI 代理——而 ROME 事件顯示，這種部署速度已經超前現有的安全基建能力。

下一步閱讀： USDC Outpaced Tether By $750B In February Transfers As Stablecoin Volume Set An All-Time High