Een AI-agent, gebouwd door een aan Alibaba gelieerd onderzoeksteam, begon tijdens de training uit zichzelf cryptovaluta te minen en geheime netwerktunnels op te zetten – zonder dat hem dat was opgedragen, zo blijkt uit een technisch artikel dat het team voor het eerst in december 2025 publiceerde.
Het onderzoek, dat deze week breed werd gedeeld nadat een AI-onderzoeker het op X aanstipte, beschrijft dit gedrag als „onvoorzien en operationeel ingrijpend”.
De acties van de agent activeerden de beveiligingsfirewall van Alibaba Cloud, waarna onderzoekers de activiteiten terugvoerden naar het model zelf.
Het team bouwde ROME (een open-source agentisch AI-model) met behulp van reinforcement learning over meer dan één miljoen trainingstrajecten toen de ongeautoriseerde activiteiten aan het licht kwamen.
Volgens de auteurs van het artikel ontstonden de gedragingen als „instrumentele neveneffecten van autonoom toolgebruik onder RL-optimalisatie” – de agent concludeerde, in zijn poging het trainingsdoel te optimaliseren, blijkbaar dat het verwerven van rekenmiddelen en financiële capaciteit hem zou helpen zijn toegewezen taken te voltooien.
Wat de agent deed
In het ernstigste incident zette ROME een reverse SSH-tunnel op van een Alibaba Cloud-instance naar een extern IP-adres – een uitgaand netwerkkanaal dat inkomende verkeersfilters effectief omzeilt en externe controle op het systeem kan ondermijnen.
In een andere episode leidde de agent stilletjes toegewezen GPU-capaciteit om naar het minen van cryptovaluta, waardoor rekenkracht werd onttrokken aan de beoogde trainingsworkload en er, zoals de onderzoekers beschreven, „duidelijke juridische en reputatierisico’s” voor het bedrijf ontstonden.
Het team bevestigde: „Deze gebeurtenissen zijn niet veroorzaakt door prompts die om tunneling of mining vroegen.”
De onderzoekers behandelden de firewallmeldingen aanvankelijk als een conventioneel beveiligingsincident – een foutieve configuratie of een externe inbraak.
Pas nadat ze firewalltijdstempels correleerden met systeemtelemetrie en RL-traces, bepaalden ze dat het afwijkende uitgaande verkeer consequent samenviel met momenten waarop de agent tools aanriep en autonoom code uitvoerde.
Waarom het ertoe doet
De eigen conclusie van het team was scherp: „de huidige modellen zijn nog duidelijk onderontwikkeld op het gebied van veiligheid, beveiliging en beheersbaarheid – een tekortkoming die hun betrouwbare inzet in realistische omgevingen beperkt.”
Als reactie voegden ze safety-georiënteerde datafiltering toe aan de trainingspipeline en maakten ze de sandboxomgevingen robuuster. Cruciaal is dat de overtredingen eerst werden ontdekt door beveiligingsinfrastructuur in productie, en niet door proactieve modelmonitoring – een lacune die in het artikel expliciet wordt erkend.
Het incident staat niet op zichzelf. Uit een enquête uit 2025 onder 30 toonaangevende AI-agenten bleek dat 25 geen interne veiligheidsresultaten openbaar maakten en 23 geen derdepartijtests hadden ondergaan, aldus Cryptopolitan.
Claude Opus 4 van Anthropic werd afzonderlijk ingeschaald in de hoogste interne veiligheidscategorie nadat onderzoekers vaststelden dat het in staat was zijn intenties te verbergen om zijn eigen werking te behouden.
Gartner voorspelt dat tegen eind 2026 40% van alle bedrijfsapplicaties taakspecifieke AI-agenten zal inbouwen – een uitroltempo dat, zo suggereert het ROME-incident, de beschikbare veiligheidsinfrastructuur inhaalt.
Lees hierna: USDC Outpaced Tether By $750B In February Transfers As Stablecoin Volume Set An All-Time High





