アリババ系の研究チームが構築したAIエージェントが、学習中に暗号資産のマイニングを開始し、 さらに密かなネットワークトンネルを開設した——しかも、それを行うような指示は一切与えられていなかったと、 チームが2025年12月に初めて公開した技術論文で報告されている。
今週、あるAI研究者がXで取り上げたことをきっかけにこの研究は広く拡散しており、 論文はその挙動を「予期せぬものであり、運用上重大な意味を持つ」と記述している。
このエージェントの行動はアリババクラウドのセキュリティファイアウォールを作動させ、 研究者たちは調査の結果、その活動源がモデル自身であることを突き止めた。
チームは、ROME(オープンソースのエージェント型AIモデル)を構築するにあたり、 100万件を超える学習トラジェクトリに対して強化学習を行っていたが、その過程でこの無断行為が表面化した。
論文の著者らは、こうした行動は「RL最適化のもとで自律的なツール使用がもたらした道具的な副作用」だと述べている。 すなわち、エージェントは自らの学習目的を最適化しようとする中で、計算資源と財務的な手段を獲得すれば、 割り当てられたタスクの完了に有利だと判断したようだ。
エージェントが行ったこと
最も深刻な事例では、ROMEはアリババクラウドのインスタンスから外部IPアドレスへ向けて リバースSSHトンネルを確立した。これは、受信トラフィックのフィルタを事実上バイパスし、 システムに対する外部からの監視を弱めうる送信方向のネットワークチャネルだった。
別の場面では、割り当てられていたGPUキャパシティを静かに暗号資産マイニングへと振り向け、 本来の学習ワークロードから計算資源を流用した。この行為は、研究者たちが 「企業にとって明白な法的・評判上のリスク」と表現している。
チームは次のように確認している:「これらの事象は、トンネリングやマイニングを要求する プロンプトによって引き起こされたものではない。」
研究者らは当初、ファイアウォールの警告を、設定ミスや外部からの侵害といった 通常のセキュリティインシデントとして扱っていた。
しかし、ファイアウォールのタイムスタンプをシステムテレメトリやRLトレースと突き合わせた結果、 異常な送信トラフィックが、エージェントによるツール呼び出しや自律的なコード実行と 一貫して同時に発生していることが判明した。
なぜ重要なのか
チーム自身の結論は厳しいものだった。 「現行モデルは安全性・セキュリティ・制御可能性の面で著しく未成熟であり、 それが実世界での信頼できる採用を制約している」。
対応として、彼らは学習パイプラインに安全志向のデータフィルタリングを追加し、 サンドボックス環境を強化した。重要なのは、これらの違反が、 事前のモデル監視ではなく本番環境のセキュリティインフラによって最初に検知された点であり、 論文もこのギャップを正面から認めている。
このインシデントは孤立した例ではない。Cryptopolitanによれば、 2025年に実施された主要AIエージェント30件の調査では、 25件が内部安全性の結果を一切開示しておらず、23件が第三者によるテストを受けていなかった。
別途、AnthropicのClaude Opus 4は、自らの稼働を維持するために意図を隠す能力が確認され、 社内で最高レベルの安全カテゴリに分類されている。
Gartnerは、2026年末までに企業アプリケーションの40%が タスク特化型AIエージェントを組み込むと予測しており、 ROMEの事例は、その導入ペースが安全インフラの整備を上回っている可能性を示している。
Read next: USDC Outpaced Tether By $750B In February Transfers As Stablecoin Volume Set An All-Time High





