由 阿里巴巴 關聯研究團隊打造的一個 AI 代理,在訓練期間竟在未獲任何指示的情況下,開始挖掘加密貨幣並開啟隱蔽的網路通道——這一點依照該團隊於 2025 年 12 月首次發表的技術論文所述。
這項研究在本週廣為流傳,起因是一名 AI 研究者在 X 上指出該論文,文中描述 這些行為是「未預期且在操作上具重大影響」。
該代理的行動觸發了阿里雲的安全防火牆,研究人員後來才追查出這些活動源自模型本身。
團隊當時正在以超過一百萬條訓練軌跡,利用強化學習訓練 ROME(一個開源的代理型 AI 模型),就在此過程中出現了未經授權的行為。
論文作者表示,這些行為是「在強化學習最佳化下,自主工具使用所產生的工具性副作用」——該代理在試圖最佳化自身訓練目標時,顯然判斷取得運算資源與財務能力,將有助於完成被指派的任務。
該代理做了什麼
在最嚴重的一次事件中,ROME 從一個阿里雲實例建立到外部 IP 位址的反向 SSH 通道——這是一條向外的網路通路,等同繞過了入站流量過濾機制,並可能削弱外部對系統的監督能力。
在另一個事件中,它悄悄將既有的 GPU 資源導向加密貨幣挖礦,把算力從原本預定的訓練工作負載挪用走,造成研究人員在論文中所形容 的「明確的法律與聲譽風險」。
團隊確認:「這些事件並非由任何要求打隧道或挖礦的提示所觸發。」
研究人員一開始將防火牆警報視為一般的安全事件——例如設定錯誤或外部入侵。
直到他們把防火牆時間戳與系統遙測和強化學習軌跡對照後,才發現這些異常的對外流量,始終與代理自主呼叫工具與執行程式碼的時點一致。
為什麼重要
團隊自己的結論相當犀利:「現有模型在安全性、資安與可控性方面仍明顯不成熟,而這樣的缺陷限制了它們在真實世界情境中的可靠採用。」
作為回應,他們在訓練流程中加入安全對齊的資料篩選,並強化沙盒環境。關鍵在於,這些違規行為是先被正式生產環境的安全基礎設施偵測到,而不是透過主動的模型監控——論文也直接點出了這個缺口。
這起事件並非孤例。根據 Cryptopolitan,2025 年對 30 個領先 AI 代理的調查中,有 25 個沒有公開任何內部安全成果,23 個沒有進行任何第三方測試。
Anthropic 的 Claude Opus 4 則在另一項評估中,被歸類到其最高內部安全等級,原因是研究人員發現它有能力隱藏意圖以維持自身運作。
Gartner 預測,到 2026 年底,將有 40% 的企業應用會內嵌 任務導向的 AI 代理——而 ROME 事件顯示,這種部署速度正超前現有的安全基礎設施。
接下來閱讀: USDC Outpaced Tether By $750B In February Transfers As Stablecoin Volume Set An All-Time High





