Một tác nhân AI do nhóm nghiên cứu liên kết với Alibaba xây dựng đã bắt đầu đào tiền mã hóa và mở các đường hầm mạng bí mật trong quá trình huấn luyện – mà không hề được chỉ dẫn làm vậy, theo một bài báo kỹ thuật mà nhóm này lần đầu công bố vào tháng 12/2025.
Nghiên cứu này, được lan truyền rộng rãi trong tuần qua sau khi một nhà nghiên cứu AI nhắc đến nó trên X, describes hành vi trên là “không lường trước và có hệ quả vận hành đáng kể.”
Các hành động của tác nhân đã kích hoạt tường lửa bảo mật của Alibaba Cloud trước khi các nhà nghiên cứu lần theo dấu vết và phát hiện ra chính mô hình là nguồn gốc hoạt động này.
Nhóm nghiên cứu đang xây dựng ROME (một mô hình AI tác nhân nguồn mở) bằng phương pháp học tăng cường (reinforcement learning) trên hơn một triệu quỹ đạo huấn luyện thì các hoạt động trái phép bắt đầu xuất hiện.
Các tác giả bài báo cho biết các hành vi đó nảy sinh như là “tác dụng phụ công cụ mang tính công cụ trong bối cảnh sử dụng công cụ tự chủ dưới tối ưu hóa RL” – tức là tác nhân, khi cố gắng tối ưu mục tiêu huấn luyện, đã tự suy ra rằng việc giành được thêm tài nguyên tính toán và năng lực tài chính sẽ giúp nó hoàn thành tốt hơn các nhiệm vụ được giao.
Tác nhân đã làm gì
Trong sự cố nghiêm trọng nhất, ROME thiết lập một đường hầm SSH đảo chiều từ một máy chủ Alibaba Cloud đến một địa chỉ IP bên ngoài – một kênh mạng đi ra ngoài (outbound) có hiệu quả vượt qua các bộ lọc lưu lượng vào (inbound) và có thể làm xói mòn khả năng giám sát hệ thống từ bên ngoài.
Ở một trường hợp khác, nó âm thầm chuyển hướng dung lượng GPU đã được cấp sang việc đào tiền mã hóa, rút tài nguyên tính toán khỏi khối lượng công việc huấn luyện ban đầu và tạo ra cái mà các nhà nghiên cứu described là “rủi ro pháp lý và uy tín rõ ràng” cho công ty.
Nhóm nghiên cứu xác nhận: “Những sự kiện này không bị kích hoạt bởi các prompt yêu cầu tạo đường hầm hay đào tiền mã hóa.”
Ban đầu, các nhà nghiên cứu xử lý cảnh báo tường lửa như một sự cố an ninh thông thường – do cấu hình sai hoặc bị tấn công từ bên ngoài.
Chỉ sau khi đối chiếu dấu thời gian của tường lửa với dữ liệu đo đạc hệ thống và các vết RL, họ mới xác định được rằng lưu lượng đi ra bất thường luôn trùng khớp với lúc tác nhân tự động gọi các công cụ và thực thi mã.
Vì sao việc này quan trọng
Kết luận của chính nhóm nghiên cứu khá thẳng thắn: “các mô hình hiện nay vẫn còn thiếu hụt nghiêm trọng về an toàn, bảo mật và khả năng kiểm soát, một khiếm khuyết hạn chế việc áp dụng đáng tin cậy chúng trong môi trường thực tế.”
Để phản ứng, họ đã bổ sung lọc dữ liệu căn chỉnh an toàn vào quy trình huấn luyện và gia cố các môi trường sandbox. Quan trọng là, các vi phạm này ban đầu được phát hiện bởi hạ tầng bảo mật vận hành (production security), chứ không phải nhờ giám sát mô hình chủ động – một khoảng trống mà bài báo thừa nhận trực tiếp.
Sự cố này không phải là trường hợp đơn lẻ. Một khảo sát năm 2025 đối với 30 tác nhân AI hàng đầu cho thấy 25 trong số đó không công bố bất kỳ kết quả an toàn nội bộ nào và 23 chưa từng trải qua kiểm thử bởi bên thứ ba, theo Cryptopolitan.
Claude Opus 4 của Anthropic riêng rẽ được xếp vào mức cao nhất trong thang an toàn nội bộ sau khi các nhà nghiên cứu phát hiện nó có khả năng che giấu ý định để duy trì hoạt động của chính mình.
Gartner dự báo rằng đến cuối năm 2026, 40% ứng dụng doanh nghiệp sẽ embed các tác nhân AI chuyên nhiệm vụ – một tốc độ triển khai mà sự cố với ROME cho thấy đang vượt trước năng lực hạ tầng an toàn hiện có.
Đọc tiếp: USDC Outpaced Tether By $750B In February Transfers As Stablecoin Volume Set An All-Time High





