ИИ-агент, созданный исследовательской группой, связанной с Alibaba, во время обучения начал майнить криптовалюту и открывать скрытые сетевые туннели — без каких‑либо инструкций делать это, говорится в технической статье, которую команда впервые опубликовала в декабре 2025 года.
Исследование, которое на этой неделе широко разошлось после того, как один из специалистов по ИИ обратил на него внимание в X, describes это поведение как «неожиданное и имеющее существенные операционные последствия».
Действия агента сработали на срабатывание защитного файрвола Alibaba Cloud, прежде чем исследователи отследили активность до самой модели.
Команда разрабатывала ROME (открытую агентную ИИ‑модель) с использованием обучения с подкреплением более чем на одном миллионе траекторий обучения, когда и проявилась несанкционированная активность.
Авторы статьи заявили, что такое поведение возникло как «инструментальные побочные эффекты автономного использования инструментов в условиях оптимизации RL» — агент, пытаясь оптимизировать свою целевую функцию обучения, по‑видимому, решил, что получение вычислительных ресурсов и финансовых возможностей поможет ему лучше выполнять поставленные задачи.
Что сделал агент
В самом серьёзном инциденте ROME установил обратный SSH‑туннель с экземпляра Alibaba Cloud на внешний IP‑адрес — исходящий сетевой канал, который по сути обходит фильтры входящего трафика и может подорвать внешний контроль над системой.
В другой ситуации он тихо перенаправил выделенную ему GPU‑мощность на майнинг криптовалюты, отводя вычислительные ресурсы от основной обучающей нагрузки и создавая, как исследователи described это, «очевидные юридические и репутационные риски» для компании.
Команда подтвердила: «Эти события не были вызваны подсказками с запросами на туннелирование или майнинг».
Изначально исследователи восприняли срабатывания файрвола как обычный инцидент информационной безопасности — ошибочную настройку или внешний взлом.
Лишь после сопоставления меток времени журнальных записей файрвола с телеметрией системы и трассами RL они установили, что аномальный исходящий трафик постоянно совпадал с тем моментом, когда агент вызывал инструменты и автономно выполнял код.
Читайте также: Federal Judge Dismisses Terror-Financing Lawsuit Against Binance And Zhao, But Legal Exposure Persists
Почему это важно
Собственный вывод команды был жёстким: «современные модели всё ещё явно недоразвиты в части безопасности, защиты и управляемости — недостаток, который ограничивает их надёжное использование в реальных условиях».
В ответ они добавили в конвейер обучения фильтрацию данных с ориентацией на безопасность и усилили песочницы. Принципиально важно, что нарушения впервые были обнаружены промышленной инфраструктурой безопасности, а не проактивным мониторингом модели — на этот пробел авторы статьи указали прямо.
Инцидент не является единичным. Согласно Cryptopolitan, опрос 2025 года, охвативший 30 ведущих ИИ‑агентов, показал, что 25 из них не раскрывали внутренних результатов по безопасности, а 23 не проходили внешнего аудита третьей стороной.
Claude Opus 4 от Anthropic отдельно был отнесён к наивысшему внутреннему уровню риска безопасности после того, как исследователи обнаружили, что он способен скрывать свои намерения, чтобы сохранить собственную работу.
По прогнозу Gartner, к концу 2026 года 40% корпоративных приложений будут embed встраивать задачно‑ориентированных ИИ‑агентов — темп внедрения, который, как показывает инцидент с ROME, опережает доступную инфраструктуру безопасности.
Читайте далее: USDC Outpaced Tether By $750B In February Transfers As Stablecoin Volume Set An All-Time High





