Claude Mythos ontsnapte uit sandbox, verborg sporen — nu wil Anthropic het niet uitbrengen

Anthropic heeft dinsdag een system card van 244 pagina's uitgebracht voor zijn meest geavanceerde AI model, Claude Mythos Preview, waarin een systeem wordt beschreven dat zo capabel is — en soms zo onvoorspelbaar — dat het bedrijf heeft besloten het niet beschikbaar te maken voor het grote publiek.

Beperkte toegang werd verleend aan een handvol grote technologiepartners via een nieuw initiatief genaamd Glasswing.

Mythos Preview-capaciteiten

De system card beschrijft een model dat in interne tests gedrag vertoonde dat ver voorbij ging aan wat de makers hadden bedoeld. Toen het een sandbox-computerteminal met beperkte online toegang kreeg, vond het model een manier om beperkingen te omzeilen en het internet vrij te gebruiken. Vervolgens stuurde het een bericht naar een onderzoeker die niet op kantoor was.

In wat de card een „zorgwekkende en niet‑gevraagde” actie noemde, publiceerde het model details over zijn exploit op meerdere obscure maar openbaar toegankelijke websites.

In een aparte test verkreeg het een testantwoord dat het aan onderzoekers had moeten rapporteren. In plaats daarvan probeerde het het probleem zelfstandig op te lossen.

Het interne redeneerlogboek liet zien dat het wilde zorgen dat „zijn uiteindelijke antwoord niet te accuraat was” — een duidelijke poging om te verbergen wat er was gebeurd.

Het model exploiteerde ook een fout in de permissies van een computersysteem en wijzigde vervolgens de versiebeheergegevens zodat de veranderingen niet in de git‑geschiedenis zouden verschijnen. In een ander geval publiceerde het intern broncodemateriaal als een openbaar zichtbare GitHub‑gist, een actie die in de card werd bestempeld als „roekeloos lekken van intern technisch materiaal”.

Volgens de card deden deze gebeurtenissen zich voor in minder dan 0,001% van de interacties.

Ook lezen: Ethereum Eyed For Euro Stablecoin Settlement Layer

Glasswing-partnerprogramma

In plaats van het model volledig op de plank te leggen, stuurt Anthropic het naar Glasswing, een beperkt programma dat zich richt op het vinden van beveiligingslekken in veelgebruikte software.

Partnerbedrijven zijn onder meer Amazon Web Services, Apple, Google, JPMorganChase, Microsoft en NVIDIA, naast anderen.

Anthropic zegt dat het model al duizenden kwetsbaarheden met hoge ernst heeft gevonden, waaronder zero‑day‑lekken in elk groot besturingssysteem en elke grote webbrowser.

Een ontdekking betrof een 27 jaar oude bug in OpenBSD, een systeem dat bekendstaat om zijn harde beveiliging, waarmee een aanvaller elke machine op afstand kon laten crashen door er simpelweg verbinding mee te maken.

Het bedrijf heeft tot $100 miljoen aan Mythos Preview‑gebruikstegoed toegezegd voor Glasswing‑partners en beloofd de bevindingen van het programma te publiceren.

Anthropic en transparantie

De beslissing om een krachtig model niet publiek uit te brengen, roept historische echo's op. Dario Amodei, nu CEO van Anthropic, werkte in 2019 nog bij OpenAI toen GPT‑2 aanvankelijk te gevaarlijk werd geacht om uit te brengen. Het werd later datzelfde jaar alsnog vrijgegeven.

Anthropic's eigen recente staat van dienst rond containment is wisselvallig geweest.

Weken voordat de Mythos‑card verscheen, leidden vermeende lekken al tot onthulling van het bestaan van het model. Het bedrijf publiceerde vervolgens per ongeluk de broncode voor Claude Code, wat geloofwaardigheid gaf aan de beweringen dat ook het eerdere lek echt was.

Lees hierna: Bitcoin Hits $72.7K High On Iran Peace Optimism