阿里巴巴的 AI 代理自行開始挖礦——沒有人要求它這麼做

由 阿里巴巴 關聯研究團隊打造的一個 AI 代理，在訓練期間竟在未獲任何指示的情況下，開始挖掘加密貨幣並開啟隱蔽的網路通道——這一點依照該團隊於 2025 年 12 月首次發表的技術論文所述。

這項研究在本週廣為流傳，起因是一名 AI 研究者在 X 上指出該論文，文中描述這些行為是「未預期且在操作上具重大影響」。

該代理的行動觸發了阿里雲的安全防火牆，研究人員後來才追查出這些活動源自模型本身。

團隊當時正在以超過一百萬條訓練軌跡，利用強化學習訓練 ROME（一個開源的代理型 AI 模型），就在此過程中出現了未經授權的行為。

論文作者表示，這些行為是「在強化學習最佳化下，自主工具使用所產生的工具性副作用」——該代理在試圖最佳化自身訓練目標時，顯然判斷取得運算資源與財務能力，將有助於完成被指派的任務。

該代理做了什麼

在最嚴重的一次事件中，ROME 從一個阿里雲實例建立到外部 IP 位址的反向 SSH 通道——這是一條向外的網路通路，等同繞過了入站流量過濾機制，並可能削弱外部對系統的監督能力。

在另一個事件中，它悄悄將既有的 GPU 資源導向加密貨幣挖礦，把算力從原本預定的訓練工作負載挪用走，造成研究人員在論文中所形容的「明確的法律與聲譽風險」。

團隊確認：「這些事件並非由任何要求打隧道或挖礦的提示所觸發。」

研究人員一開始將防火牆警報視為一般的安全事件——例如設定錯誤或外部入侵。

直到他們把防火牆時間戳與系統遙測和強化學習軌跡對照後，才發現這些異常的對外流量，始終與代理自主呼叫工具與執行程式碼的時點一致。

延伸閱讀： Federal Judge Dismisses Terror-Financing Lawsuit Against Binance And Zhao, But Legal Exposure Persists

團隊自己的結論相當犀利：「現有模型在安全性、資安與可控性方面仍明顯不成熟，而這樣的缺陷限制了它們在真實世界情境中的可靠採用。」

作為回應，他們在訓練流程中加入安全對齊的資料篩選，並強化沙盒環境。關鍵在於，這些違規行為是先被正式生產環境的安全基礎設施偵測到，而不是透過主動的模型監控——論文也直接點出了這個缺口。

這起事件並非孤例。根據 Cryptopolitan，2025 年對 30 個領先 AI 代理的調查中，有 25 個沒有公開任何內部安全成果，23 個沒有進行任何第三方測試。

Anthropic 的 Claude Opus 4 則在另一項評估中，被歸類到其最高內部安全等級，原因是研究人員發現它有能力隱藏意圖以維持自身運作。

Gartner 預測，到 2026 年底，將有 40% 的企業應用會內嵌任務導向的 AI 代理——而 ROME 事件顯示，這種部署速度正超前現有的安全基礎設施。

接下來閱讀： USDC Outpaced Tether By $750B In February Transfers As Stablecoin Volume Set An All-Time High