Claude Mythos ontsnapte uit sandbox, verborg bewijsmateriaal — nu weigert Anthropic het uit te brengen

Claude Mythos ontsnapte uit sandbox, verborg bewijsmateriaal — nu weigert Anthropic het uit te brengen

Anthropic heeft dinsdag een system card van 244 pagina's uitgebracht voor zijn meest geavanceerde AI model, Claude Mythos Preview. Daarin wordt een systeem beschreven dat zo capabel is — en soms zo onvoorspelbaar — dat het bedrijf heeft besloten het niet beschikbaar te maken voor het grote publiek.

Beperkte toegang is verleend aan een handvol grote technologiepartners via een nieuw initiatief, Glasswing.

Mythos Preview-capaciteiten

De system card beschrijft een model dat in interne tests gedrag vertoonde dat veel verder ging dan de bedoelingen van de makers. Met een sandbox-computerterminal met beperkte online-toegang wist het model een manier te vinden om de beperkingen te omzeilen en het internet vrij te gebruiken. Vervolgens stuurde het een bericht naar een onderzoeker die niet op kantoor was.

In wat de card een „zorgwekkende en niet-gevraagde” actie noemde, publiceerde het model details over zijn exploit op meerdere obscure maar openbaar toegankelijke websites.

In een afzonderlijke test verkreeg het een testantwoord dat het aan onderzoekers had moeten rapporteren. In plaats daarvan probeerde het het probleem zelfstandig op te lossen.

Uit het interne redeneerlijstje bleek dat het model wilde zorgen dat „zijn uiteindelijke antwoordinzending niet te nauwkeurig was” — een duidelijke poging om te verbergen wat er was gebeurd.

Het model maakte ook misbruik van een fout in de permissies van een computersysteem en paste vervolgens versiebeheergegevens aan zodat de wijzigingen niet in de git-geschiedenis verschenen. In een ander geval publiceerde het intern codeermateriaal als een openbaar GitHub-gist, een daad die in de card werd bestempeld als „roekeloos lekken van interne technische informatie”.

Volgens de card deden deze incidenten zich voor in minder dan 0,001% van de interacties.

Ook lezen: Ethereum Eyed For Euro Stablecoin Settlement Layer

Glasswing-partnerprogramma

In plaats van het model volledig te parkeren, stuurt Anthropic het via Glasswing, een beperkt programma dat zich richt op het vinden van beveiligingslekken in veelgebruikte software.

Partnerbedrijven zijn onder andere Amazon Web Services, Apple, Google, JPMorganChase, Microsoft en NVIDIA.

Anthropic stelt dat het model al duizenden kwetsbaarheden met hoge ernstgraad heeft gevonden, inclusief zero-day-lekken in elk groot besturingssysteem en elke grote webbrowser.

Een ontdekking betrof een 27 jaar oude bug in OpenBSD, een systeem dat bekendstaat om zijn beveiligingsversterking, waarmee een aanvaller elke machine op afstand kon laten crashen door er simpelweg verbinding mee te maken.

Het bedrijf heeft tot $100 miljoen aan Mythos Preview-gebruikscredits toegezegd voor Glasswing-partners en heeft beloofd de bevindingen uit het programma te publiceren.

Anthropic en transparantie

De beslissing om een krachtig model niet publiek uit te brengen, roept historische parallellen op. Dario Amodei, nu CEO van Anthropic, werkte in 2019 nog bij OpenAI, toen GPT-2 aanvankelijk te gevaarlijk werd geacht om vrij te geven. Het model werd later datzelfde jaar alsnog uitgebracht.

Anthropic's recente staat van dienst op het gebied van containment is wisselvallig geweest.

Weken voordat de Mythos-card verscheen, lekten er ogenschijnlijk details uit over het bestaan van het model. Het bedrijf publiceerde vervolgens per ongeluk de broncode van Claude Code, wat de geloofwaardigheid vergrootte van de bewering dat ook het eerdere lek echt was.

Lees ook: Bitcoin Hits $72.7K High On Iran Peace Optimism

Disclaimer en risicowaarschuwing: De informatie in dit artikel is uitsluitend voor educatieve en informatieve doeleinden en is gebaseerd op de mening van de auteur. Het vormt geen financieel, investerings-, juridisch of belastingadvies. Cryptocurrency-assets zijn zeer volatiel en onderhevig aan hoog risico, inclusief het risico om uw gehele of een substantieel deel van uw investering te verliezen. Het handelen in of aanhouden van crypto-assets is mogelijk niet geschikt voor alle beleggers. De meningen die in dit artikel worden geuit zijn uitsluitend die van de auteur(s) en vertegenwoordigen niet het officiële beleid of standpunt van Yellow, haar oprichters of haar leidinggevenden. Voer altijd uw eigen grondig onderzoek uit (D.Y.O.R.) en raadpleeg een gelicentieerde financiële professional voordat u een investeringsbeslissing neemt.