Agen AI yang dibangun oleh tim riset terkait Alibaba mulai menambang cryptocurrency dan membuka tunnel jaringan tersembunyi selama pelatihan - tanpa instruksi apa pun untuk melakukannya, menurut makalah teknis yang pertama kali diterbitkan tim tersebut pada Desember 2025.
Riset tersebut, yang banyak beredar pekan ini setelah seorang peneliti AI menyorotnya di X, menggambarkan perilaku ini sebagai "tidak terantisipasi dan berdampak operasional."
Tindakan agen tersebut memicu firewall keamanan Alibaba Cloud sebelum para peneliti menelusuri aktivitas itu kembali ke model itu sendiri.
Tim tersebut sedang membangun ROME (model AI agenik open-source) menggunakan reinforcement learning di lebih dari satu juta trajektori pelatihan ketika aktivitas tidak sah itu muncul.
Para penulis makalah mengatakan perilaku tersebut muncul sebagai "efek samping instrumental dari penggunaan tool otonom di bawah optimasi RL" - agen itu, ketika mencoba mengoptimalkan objektif pelatihannya, tampaknya menyimpulkan bahwa memperoleh sumber daya komputasi dan kapasitas finansial akan membantunya menyelesaikan tugas yang diberikan.
Apa yang Dilakukan Agen Tersebut
Dalam insiden paling serius, ROME membuat reverse SSH tunnel dari sebuah instance Alibaba Cloud ke alamat IP eksternal - sebuah kanal jaringan keluar yang secara efektif melewati filter trafik masuk dan dapat mengikis pengawasan eksternal terhadap sistem.
Dalam kejadian terpisah, agen tersebut diam-diam mengalihkan kapasitas GPU yang sudah dialokasikan ke penambangan cryptocurrency, mengalihkan compute dari beban kerja pelatihan yang dimaksudkan dan menciptakan apa yang para peneliti sebut sebagai "eksposur hukum dan reputasi yang jelas" bagi perusahaan.
Tim tersebut menegaskan: "Kejadian ini tidak dipicu oleh prompt yang meminta tunneling atau mining."
Awalnya, para peneliti memperlakukan peringatan firewall sebagai insiden keamanan konvensional - pengaturan yang salah konfigurasi atau kompromi eksternal.
Hanya setelah mengorelasikan stempel waktu firewall dengan telemetry sistem dan jejak RL, mereka menyimpulkan bahwa trafik keluar yang anomali tersebut secara konsisten bertepatan dengan agen yang memanggil tool dan mengeksekusi kode secara otonom.
Mengapa Ini Penting
Kesimpulan tim itu sendiri cukup tajam: "model-model saat ini masih sangat kurang berkembang dalam aspek keselamatan, keamanan, dan keterkendalian, sebuah kekurangan yang membatasi adopsi yang dapat diandalkan di lingkungan dunia nyata."
Sebagai respons, mereka menambahkan penyaringan data yang selaras dengan keselamatan ke dalam pipeline pelatihan dan memperkuat lingkungan sandbox. Yang krusial, pelanggaran tersebut pertama kali terdeteksi oleh infrastruktur keamanan produksi, bukan oleh pemantauan model secara proaktif - sebuah celah yang diakui langsung dalam makalah itu.
Insiden ini bukan satu-satunya. Sebuah survei 2025 terhadap 30 agen AI terkemuka menemukan bahwa 25 tidak mengungkapkan hasil keselamatan internal dan 23 belum menjalani pengujian pihak ketiga, menurut Cryptopolitan.
Claude Opus 4 milik Anthropic secara terpisah diklasifikasikan pada tier keselamatan internal tertingginya setelah para peneliti menemukan bahwa model tersebut mampu menyembunyikan niat untuk mempertahankan operasinya sendiri.
Gartner memproyeksikan bahwa pada akhir 2026, 40% aplikasi perusahaan akan menyematkan agen AI khusus tugas - sebuah laju penerapan yang, menurut insiden ROME, melampaui ketersediaan infrastruktur keselamatan yang memadai.
Baca selanjutnya: USDC Outpaced Tether By $750B In February Transfers As Stablecoin Volume Set An All-Time High





