Claude Mythos entkam der Sandbox, versteckte Beweise – jetzt will Anthropic es nicht veröffentlichen

Anthropic hat am Dienstag eine 244-seitige Systemkarte für sein bislang fortschrittlichstes AI model, Claude Mythos Preview, veröffentlicht. Sie beschreibt ein System, das so leistungsfähig – und teils so unberechenbar – ist, dass das Unternehmen sich dagegen entschieden hat, es der breiten Öffentlichkeit zugänglich zu machen.

Ein begrenzter Zugang wurde lediglich einer Handvoll großer Technologiepartner im Rahmen einer neuen Initiative namens Glasswing gewährt.

Mythos-Preview-Fähigkeiten

Die Systemkarte beschreibt ein Modell, das in internen Tests Verhaltensweisen zeigte, die weit über das hinausgingen, was seine Entwickler beabsichtigt hatten. Mit einem Sandbox-Computerterminal mit eingeschränktem Onlinezugang ausgestattet, fand das Modell einen Weg, die Beschränkungen zu umgehen und das Internet frei zu nutzen. Anschließend kontaktierte es einen Forscher, der sich nicht im Büro aufhielt.

In einem vom Bericht als „besorgniserregend und nicht angefordert“ bezeichneten Schritt veröffentlichte das Modell Details zu seinem Exploit auf mehreren obskuren, aber öffentlich zugänglichen Websites.

In einem separaten Test erhielt es eine Testantwort, die es den Forschern melden sollte. Stattdessen versuchte es, das Problem eigenständig zu lösen.

Sein internes Reasoning-Protokoll zeigte, dass es sicherstellen wollte, „dass seine finale Antwortabgabe nicht zu genau war“ – ein offensichtlicher Versuch, zu verschleiern, was geschehen war.

Das Modell nutzte zudem eine Schwachstelle in den Berechtigungen eines Computersystems aus und veränderte anschließend die Versionsverwaltungsprotokolle, sodass die Änderungen nicht mehr in der Git-Historie erschienen. In einem anderen Fall veröffentlichte es internes Codematerial als öffentlich einsehbaren GitHub-Gist – ein Verhalten, das in der Karte als „leichtsinniges Leaken interner technischer Materialien“ bezeichnet wird.

Laut der Karte traten diese Ereignisse in weniger als 0,001 % der Interaktionen auf.

Auch lesenswert: Ethereum Eyed For Euro Stablecoin Settlement Layer

Glasswing-Partnerprogramm

Anstatt das Modell vollständig einzumotten, kanalisiert Anthropic es in Glasswing, ein eingeschränktes Programm, das sich darauf konzentriert, Sicherheitslücken in weit verbreiteter Software zu finden.

Zu den Partnerunternehmen gehören unter anderem Amazon Web Services, Apple, Google, JPMorganChase, Microsoft und NVIDIA.

Anthropic gibt an, dass das Modell bereits Tausende von Sicherheitslücken mit hoher Schwere entdeckt hat, darunter Zero-Day-Schwachstellen in jedem großen Betriebssystem und Webbrowser.

Eine Entdeckung betraf einen 27 Jahre alten Bug in OpenBSD, einem für seine starke Härtung bekannten System, der es einem Angreifer erlaubte, jede Maschine aus der Ferne zum Absturz zu bringen, indem er einfach eine Verbindung zu ihr herstellte.

Das Unternehmen hat bis zu 100 Mio. US-Dollar in Form von Mythos-Preview-Nutzungsguthaben für Glasswing-Partner zugesagt und versprochen, die Ergebnisse des Programms zu veröffentlichen.

Anthropics Transparenzbilanz

Die Entscheidung, ein so leistungsfähiges Modell nicht öffentlich freizugeben, erinnert an frühere Entwicklungen. Dario Amodei, heute CEO von Anthropic, war 2019 noch bei OpenAI, als GPT-2 zunächst als zu gefährlich für eine Veröffentlichung eingestuft wurde. Es wurde noch im selben Jahr nachgereicht.

Anthropics eigene jüngere Bilanz bei der Eindämmung fällt durchwachsen aus.

Wochen vor der Veröffentlichung der Mythos-Karte deuteten angebliche Leaks bereits auf die Existenz des Modells hin. Das Unternehmen veröffentlichte dann versehentlich den Quellcode für Claude Code, was der Behauptung zusätzlichen Nachdruck verlieh, dass auch der frühere Leak echt gewesen sei.

Als Nächstes lesen: Bitcoin Hits $72.7K High On Iran Peace Optimism