Claude Mythos löst 32-stufigen AISI-Hack in 6 von 10 Versuchen

Ein neuer Checkpoint der Anthropic's Claude Mythos Preview ist zum ersten KI-Modell geworden, das beide Cyberangriffssimulationen der britischen Regierung löst und damit neue Fragen zu autonomem Hacking aufwirft.

AISI meldet Mythos-Durchbruch

Das britische AI Security Institute berichtete am Mittwoch, dass der neuere Mythos-Checkpoint seinen 32-stufigen Angriffsparcours auf ein Unternehmensnetzwerk, „The Last Ones“, in 6 von 10 Versuchen absolvierte. Die frühere Version hatte nur 3 von 10 geschafft.

Das aktualisierte Modell knackte außerdem „Cooling Tower“, einen Industrial-Control-System-Parcours, den zuvor kein Modell bestanden hatte, in 3 von 10 Versuchen.

Der Konkurrent OpenAI’s GPT-5.5 wurde im selben Szenario getestet. Er löste „The Last Ones“ in 3 von 10 Versuchen, schaffte „Cooling Tower“ jedoch nicht.

AISI betrieb die Ranges mit einem Compute-Budget von 100 Millionen Token pro Versuch und stellte fest, dass die Leistung an dieser Obergrenze weiter skalierte – ein Hinweis darauf, dass höhere Budgets die Erfolgsquoten weiter steigern würden.

Auch lesen: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok

Verdopplungszeit schrumpft weiter

AISI verfolgt den Cyber-Fortschritt über Zeithorizont-Benchmarks und misst, welche autonom erledigbare Aufgabe ein Modell mit 80 % Zuverlässigkeit bewältigen kann. Im November 2025 schätzte die Behörde eine Verdopplungszeit von 8 Monaten. Bis Februar 2026 hatte sich dieser Wert auf 4,7 Monate verkürzt, und sowohl Mythos als auch GPT-5.5 haben seitdem diesen schnelleren Trend übertroffen.

Die Behörde räumte ein, dass unklar ist, ob die neuesten Ergebnisse eine neue Beschleunigung markieren oder einen einmaligen Sprung darstellen.

Die Forschungsorganisation METR, die KI an Softwareaufgaben statt an Cyberranges misst, kam zu einem ähnlichen Wert von rund 4,2 Monaten. AISI erklärte, diese Konvergenz stärke die These, dass der Trend reale Fähigkeitsgewinne widerspiegele und kein Artefakt einer einzelnen Evaluierungssuite sei.

Das Institut betonte, dass seine Ranges keine aktiven Verteidiger enthalten. Die Ergebnisse zeigten daher, was Modelle gegen schwach geschützte Netze leisten können – nicht unbedingt gegen gehärtete Unternehmenssysteme.

Warum Fähigkeitssprünge wichtig sind

Der neue Mythos-Checkpoint erschien nicht zusammen mit einer frischen Modellversion. AISI nutzte dieselbe Version, die Anthropic im vergangenen Monat mit Project Glasswing, seinem Sicherheitspartnerschaftsprogramm, ausgerollt hatte, nachdem es einen aktualisierten Build desselben Modells erhalten hatte.

„Auffällige Fähigkeitssprünge erfordern nicht immer neue Modellreleases“, schrieb das Institut. Das steht im Widerspruch zur Annahme, dass sich Verteidiger an Veröffentlichungszyklen orientieren können.

Anthropic stellte Mythos Preview am 7. April vor und präsentierte das Modell als Wendepunkt für die Sicherheitsbranche, nachdem es in internen Tests Zero-Day-Schwachstellen in wichtigen Betriebssystemen und Browsern identifiziert hatte. Das Unternehmen erklärte, es habe eine breitere Veröffentlichung zurückgehalten – eben wegen dieser Fähigkeiten – und AISI’s frühere Bewertung im April hatte Mythos bereits als klaren Sprung gegenüber früheren Frontiersystemen eingestuft.

Weiterlesen: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO