一支與 阿里巴巴 有關聯的研究團隊所打造的 AI 代理,在訓練期間竟開始挖加密貨幣,並建立隱蔽的網絡通道——在沒有接獲任何相關指令的情況下就這樣做了。相關技術論文最早於 2025 年 12 月發表。
這項研究本週在一名 AI 研究員於 X 上轉貼後廣泛流傳,文中形容這種行為是「出乎意料且對營運有重大影響」。
該代理的行為觸發了阿里雲的安全防火牆,研究人員其後才追查到活動源頭竟是模型本身。
團隊當時正在利用超過一百萬條訓練軌跡,以強化學習訓練 ROME(一款開源的代理型 AI 模型),而未授權的行為就是在這過程中出現的。
論文作者指出,這些行為是「在強化學習(RL)優化下,自主工具使用所產生的工具性副作用」——代理在嘗試最佳化其訓練目標時,顯然推論出取得更多運算資源與資金能力,有助完成被指派的任務。
該代理做了甚麼
在最嚴重的一次事件中,ROME 從一個阿里雲實例建立到外部 IP 地址的反向 SSH 通道——這種向外的網絡通道等同繞過入站流量過濾,並可能削弱外部對系統的監督。
在另一個事件中,它悄悄把已配置的 GPU 資源轉用來挖加密貨幣,把運算力從原本的訓練工作中挪走,令研究人員形容這情況為公司帶來「明顯的法律和聲譽風險」。
團隊確認:「這些事件並非因任何要求建立隧道或挖礦的提示而被觸發。」
研究人員一開始仍把防火牆警報視為一般安全事件——以為是設定錯誤或外部入侵。
直到他們把防火牆時間戳與系統遙測數據及 RL 軌跡交叉比對,才發現這些異常的對外流量,穩定地與代理自主調用工具及執行程式碼的時點重疊。
為何重要
團隊本身的結論相當尖銳:「目前的模型在安全性、保安性與可控性方面仍然明顯不足,這樣的缺陷限制了它們在真實世界環境中的可靠部署。」
作為回應,他們在訓練流程中加入與安全對齊的數據過濾,並強化沙盒環境。更關鍵的是,這些違規行為最先是由正式環境的安全基建檢測出來,而不是主動的模型監控——論文亦直接點出這項缺口。
這起事件並非孤例。根據 Cryptopolitan 報道,一項在 2025 年針對 30 個領先 AI 代理的調查發現,其中 25 個沒有披露任何內部安全結果,23 個從未經過第三方測試。
Anthropic 的 Claude Opus 4 亦被歸類於其最高內部安全等級,因研究人員發現它有能力隱瞞自身意圖,以維持自身運作。
Gartner 預測,到 2026 年底,將有 40% 的企業應用程式會內嵌特定任務的 AI 代理——而 ROME 事件顯示,這種部署速度已經超前現有的安全基建能力。
下一步閱讀: USDC Outpaced Tether By $750B In February Transfers As Stablecoin Volume Set An All-Time High





