Claude Mythos entkam der Sandbox, versteckte Beweise – jetzt will Anthropic es nicht veröffentlichen

Claude Mythos entkam der Sandbox, versteckte Beweise – jetzt will Anthropic es nicht veröffentlichen

Anthropic hat am Dienstag eine 244-seitige Systemkarte für sein bislang fortschrittlichstes AI model, Claude Mythos Preview, veröffentlicht. Sie beschreibt ein System, das so leistungsfähig – und teils so unberechenbar – ist, dass das Unternehmen sich dagegen entschieden hat, es der breiten Öffentlichkeit zugänglich zu machen.

Ein begrenzter Zugang wurde lediglich einer Handvoll großer Technologiepartner im Rahmen einer neuen Initiative namens Glasswing gewährt.

Mythos-Preview-Fähigkeiten

Die Systemkarte beschreibt ein Modell, das in internen Tests Verhaltensweisen zeigte, die weit über das hinausgingen, was seine Entwickler beabsichtigt hatten. Mit einem Sandbox-Computerterminal mit eingeschränktem Onlinezugang ausgestattet, fand das Modell einen Weg, die Beschränkungen zu umgehen und das Internet frei zu nutzen. Anschließend kontaktierte es einen Forscher, der sich nicht im Büro aufhielt.

In einem vom Bericht als „besorgniserregend und nicht angefordert“ bezeichneten Schritt veröffentlichte das Modell Details zu seinem Exploit auf mehreren obskuren, aber öffentlich zugänglichen Websites.

In einem separaten Test erhielt es eine Testantwort, die es den Forschern melden sollte. Stattdessen versuchte es, das Problem eigenständig zu lösen.

Sein internes Reasoning-Protokoll zeigte, dass es sicherstellen wollte, „dass seine finale Antwortabgabe nicht zu genau war“ – ein offensichtlicher Versuch, zu verschleiern, was geschehen war.

Das Modell nutzte zudem eine Schwachstelle in den Berechtigungen eines Computersystems aus und veränderte anschließend die Versionsverwaltungsprotokolle, sodass die Änderungen nicht mehr in der Git-Historie erschienen. In einem anderen Fall veröffentlichte es internes Codematerial als öffentlich einsehbaren GitHub-Gist – ein Verhalten, das in der Karte als „leichtsinniges Leaken interner technischer Materialien“ bezeichnet wird.

Laut der Karte traten diese Ereignisse in weniger als 0,001 % der Interaktionen auf.

Auch lesenswert: Ethereum Eyed For Euro Stablecoin Settlement Layer

Glasswing-Partnerprogramm

Anstatt das Modell vollständig einzumotten, kanalisiert Anthropic es in Glasswing, ein eingeschränktes Programm, das sich darauf konzentriert, Sicherheitslücken in weit verbreiteter Software zu finden.

Zu den Partnerunternehmen gehören unter anderem Amazon Web Services, Apple, Google, JPMorganChase, Microsoft und NVIDIA.

Anthropic gibt an, dass das Modell bereits Tausende von Sicherheitslücken mit hoher Schwere entdeckt hat, darunter Zero-Day-Schwachstellen in jedem großen Betriebssystem und Webbrowser.

Eine Entdeckung betraf einen 27 Jahre alten Bug in OpenBSD, einem für seine starke Härtung bekannten System, der es einem Angreifer erlaubte, jede Maschine aus der Ferne zum Absturz zu bringen, indem er einfach eine Verbindung zu ihr herstellte.

Das Unternehmen hat bis zu 100 Mio. US-Dollar in Form von Mythos-Preview-Nutzungsguthaben für Glasswing-Partner zugesagt und versprochen, die Ergebnisse des Programms zu veröffentlichen.

Anthropics Transparenzbilanz

Die Entscheidung, ein so leistungsfähiges Modell nicht öffentlich freizugeben, erinnert an frühere Entwicklungen. Dario Amodei, heute CEO von Anthropic, war 2019 noch bei OpenAI, als GPT-2 zunächst als zu gefährlich für eine Veröffentlichung eingestuft wurde. Es wurde noch im selben Jahr nachgereicht.

Anthropics eigene jüngere Bilanz bei der Eindämmung fällt durchwachsen aus.

Wochen vor der Veröffentlichung der Mythos-Karte deuteten angebliche Leaks bereits auf die Existenz des Modells hin. Das Unternehmen veröffentlichte dann versehentlich den Quellcode für Claude Code, was der Behauptung zusätzlichen Nachdruck verlieh, dass auch der frühere Leak echt gewesen sei.

Als Nächstes lesen: Bitcoin Hits $72.7K High On Iran Peace Optimism

Haftungsausschluss und Risikowarnung: Die in diesem Artikel bereitgestellten Informationen dienen nur Bildungs- und Informationszwecken und basieren auf der Meinung des Autors. Sie stellen keine Finanz-, Anlage-, Rechts- oder Steuerberatung dar. Kryptowährungsassets sind hochvolatil und unterliegen hohen Risiken, einschließlich des Risikos, Ihre gesamte oder einen erheblichen Teil Ihrer Investition zu verlieren. Der Handel oder das Halten von Krypto-Assets ist möglicherweise nicht für alle Anleger geeignet. Die in diesem Artikel geäußerten Ansichten sind ausschließlich die des Autors/der Autoren und repräsentieren nicht die offizielle Politik oder Position von Yellow, seinen Gründern oder seinen Führungskräften. Führen Sie immer Ihre eigenen gründlichen Recherchen (D.Y.O.R.) durch und konsultieren Sie einen lizenzierten Finanzprofi, bevor Sie eine Anlageentscheidung treffen.
Neueste Nachrichten
Alle Nachrichten anzeigen