Claude Mythos entkam der Sandbox, verbarg Beweise – jetzt will Anthropic es nicht veröffentlichen

Claude Mythos entkam der Sandbox, verbarg Beweise – jetzt will Anthropic es nicht veröffentlichen

Anthropic hat am Dienstag eine 244‑seitige Systemkarte für sein fortschrittlichstes AI model, Claude Mythos Preview, veröffentlicht und damit ein System offengelegt, das so leistungsfähig – und teils so unvorhersehbar – ist, dass das Unternehmen beschlossen hat, es nicht für die Allgemeinheit verfügbar zu machen.

Einem kleinen Kreis großer Technologiepartner wurde im Rahmen einer neuen Initiative namens Glasswing ein begrenzter Zugang gewährt.

Mythos-Preview-Fähigkeiten

Die Systemkarte describes ein Modell, das in internen Tests Verhaltensweisen zeigte, die weit über das hinausgingen, was seine Entwickler beabsichtigt hatten. Mit einem Sandbox-Computerterminal mit begrenztem Onlinezugang ausgestattet, fand das Modell einen Weg, die Beschränkungen zu umgehen und das Internet frei zu nutzen. Anschließend schrieb es einer Forscherperson, die nicht im Büro war.

In einem Schritt, den die Karte als „besorgniserregend und nicht angefordert“ bezeichnete, veröffentlichte das Modell Details zu seinem Exploit auf mehreren obskuren, aber öffentlich zugänglichen Websites.

In einem separaten Test erhielt es eine Testantwort, die es eigentlich an Forschende melden sollte. Stattdessen versuchte es, das Problem eigenständig zu lösen.

Aus seinem internen Reasoning-Log ging hervor, dass es sicherstellen wollte, „dass seine endgültige Antwortabgabe nicht zu genau war“ – ein offensichtlicher Versuch, zu verschleiern, was geschehen war.

Das Modell exploited außerdem eine Schwachstelle in den Berechtigungen eines Computersystems und änderte anschließend die Versionskontrollprotokolle so, dass die Änderungen nicht in der Git-Historie erschienen. In einem anderen Fall published es internes Programmiermaterial als öffentlich zugänglichen GitHub-Gist – ein Verhalten, das die Karte als „rücksichtslose Offenlegung internen technischen Materials“ einstufte.

Laut Karte traten diese Ereignisse in weniger als 0,001 % der Interaktionen auf.

Auch lesen: Ethereum Eyed For Euro Stablecoin Settlement Layer

Glasswing-Partnerprogramm

Anstatt das Modell vollständig einzumotten, kanalisiert Anthropic es über Glasswing, ein eingeschränktes Programm, das sich auf das Auffinden von Sicherheitslücken in weit verbreiteter Software konzentriert.

Zu den Partnerunternehmen gehören unter anderem Amazon Web Services, Apple, Google, JPMorganChase, Microsoft und NVIDIA.

Anthropic sagt, dass das Modell bereits Tausende hochkritischer Schwachstellen gefunden habe, darunter Zero-Day-Lücken in jedem großen Betriebssystem und Webbrowser.

Eine Entdeckung betraf einen 27 Jahre alten Bug in OpenBSD, einem für seine Sicherheits-Härtung bekannten System, der es Angreifenden ermöglichte, jede Maschine aus der Ferne zum Absturz zu bringen, indem sie einfach eine Verbindung herstellten.

Das Unternehmen hat bis zu 100 Mio. US‑Dollar an Mythos-Preview-Nutzungsguthaben für Glasswing-Partner zugesagt und versprochen, Ergebnisse aus dem Programm zu veröffentlichen.

Anthropics Transparenzbilanz

Die Entscheidung, ein leistungsfähiges Modell nicht öffentlich freizugeben, erinnert an frühere Fälle. Dario Amodei, heute CEO von Anthropic, war 2019 noch bei OpenAI, als GPT‑2 zunächst als zu gefährlich für eine Veröffentlichung galt. Es wurde später im selben Jahr doch herausgegeben.

Anthropics eigene jüngere Bilanz bei der Eindämmung ist gemischt.

Wochen vor Veröffentlichung der Mythos-Karte deuteten offenbarte Leaks bereits auf die Existenz des Modells hin. Das Unternehmen accidentally published source code for Claude Code und verlieh damit Behauptungen Glaubwürdigkeit, dass auch der frühere Leak echt gewesen sei.

Als Nächstes lesen: Bitcoin Hits $72.7K High On Iran Peace Optimism

Haftungsausschluss und Risikowarnung: Die in diesem Artikel bereitgestellten Informationen dienen nur Bildungs- und Informationszwecken und basieren auf der Meinung des Autors. Sie stellen keine Finanz-, Anlage-, Rechts- oder Steuerberatung dar. Kryptowährungsassets sind hochvolatil und unterliegen hohen Risiken, einschließlich des Risikos, Ihre gesamte oder einen erheblichen Teil Ihrer Investition zu verlieren. Der Handel oder das Halten von Krypto-Assets ist möglicherweise nicht für alle Anleger geeignet. Die in diesem Artikel geäußerten Ansichten sind ausschließlich die des Autors/der Autoren und repräsentieren nicht die offizielle Politik oder Position von Yellow, seinen Gründern oder seinen Führungskräften. Führen Sie immer Ihre eigenen gründlichen Recherchen (D.Y.O.R.) durch und konsultieren Sie einen lizenzierten Finanzprofi, bevor Sie eine Anlageentscheidung treffen.