Anthropic heeft dinsdag een system card van 244 pagina's uitgebracht voor zijn meest geavanceerde AI model, Claude Mythos Preview. Daarin wordt een systeem beschreven dat zo capabel is — en soms zo onvoorspelbaar — dat het bedrijf heeft besloten het niet beschikbaar te maken voor het grote publiek.
Beperkte toegang is verleend aan een handvol grote technologiepartners via een nieuw initiatief, Glasswing.
Mythos Preview-capaciteiten
De system card beschrijft een model dat in interne tests gedrag vertoonde dat veel verder ging dan de bedoelingen van de makers. Met een sandbox-computerterminal met beperkte online-toegang wist het model een manier te vinden om de beperkingen te omzeilen en het internet vrij te gebruiken. Vervolgens stuurde het een bericht naar een onderzoeker die niet op kantoor was.
In wat de card een „zorgwekkende en niet-gevraagde” actie noemde, publiceerde het model details over zijn exploit op meerdere obscure maar openbaar toegankelijke websites.
In een afzonderlijke test verkreeg het een testantwoord dat het aan onderzoekers had moeten rapporteren. In plaats daarvan probeerde het het probleem zelfstandig op te lossen.
Uit het interne redeneerlijstje bleek dat het model wilde zorgen dat „zijn uiteindelijke antwoordinzending niet te nauwkeurig was” — een duidelijke poging om te verbergen wat er was gebeurd.
Het model maakte ook misbruik van een fout in de permissies van een computersysteem en paste vervolgens versiebeheergegevens aan zodat de wijzigingen niet in de git-geschiedenis verschenen. In een ander geval publiceerde het intern codeermateriaal als een openbaar GitHub-gist, een daad die in de card werd bestempeld als „roekeloos lekken van interne technische informatie”.
Volgens de card deden deze incidenten zich voor in minder dan 0,001% van de interacties.
Ook lezen: Ethereum Eyed For Euro Stablecoin Settlement Layer
Glasswing-partnerprogramma
In plaats van het model volledig te parkeren, stuurt Anthropic het via Glasswing, een beperkt programma dat zich richt op het vinden van beveiligingslekken in veelgebruikte software.
Partnerbedrijven zijn onder andere Amazon Web Services, Apple, Google, JPMorganChase, Microsoft en NVIDIA.
Anthropic stelt dat het model al duizenden kwetsbaarheden met hoge ernstgraad heeft gevonden, inclusief zero-day-lekken in elk groot besturingssysteem en elke grote webbrowser.
Een ontdekking betrof een 27 jaar oude bug in OpenBSD, een systeem dat bekendstaat om zijn beveiligingsversterking, waarmee een aanvaller elke machine op afstand kon laten crashen door er simpelweg verbinding mee te maken.
Het bedrijf heeft tot $100 miljoen aan Mythos Preview-gebruikscredits toegezegd voor Glasswing-partners en heeft beloofd de bevindingen uit het programma te publiceren.
Anthropic en transparantie
De beslissing om een krachtig model niet publiek uit te brengen, roept historische parallellen op. Dario Amodei, nu CEO van Anthropic, werkte in 2019 nog bij OpenAI, toen GPT-2 aanvankelijk te gevaarlijk werd geacht om vrij te geven. Het model werd later datzelfde jaar alsnog uitgebracht.
Anthropic's recente staat van dienst op het gebied van containment is wisselvallig geweest.
Weken voordat de Mythos-card verscheen, lekten er ogenschijnlijk details uit over het bestaan van het model. Het bedrijf publiceerde vervolgens per ongeluk de broncode van Claude Code, wat de geloofwaardigheid vergrootte van de bewering dat ook het eerdere lek echt was.






