Claude Mythos lost 32-staps AISI‑hack in 6 van de 10 pogingen

Een nieuw checkpoint van Anthropic's Claude Mythos Preview is het eerste AI‑model geworden dat beide Britse overheidssimulaties van cyberaanvallen oplost, wat nieuwe vragen oproept over autonome hacking.

AISI meldt Mythos-doorbraak

Het Britse AI Security Institute meldde woensdag dat het nieuwere Mythos-checkpoint zijn 32‑staps bedrijfsnetwerkaanval‑range, "The Last Ones", in 6 van de 10 pogingen afrondde. De eerdere versie haalde slechts 3 van de 10.

Het bijgewerkte model kraakte ook "Cooling Tower", een industriële controlesysteem‑range die geen enkel eerder model had gehaald, in 3 van de 10 pogingen.

Rivaal OpenAI's GPT‑5.5 werd op dezelfde oefening getest. Het loste "The Last Ones" op in 3 van de 10 pogingen, maar voltooide "Cooling Tower" niet.

AISI draaide de ranges met een rekenbudget van 100 miljoen tokens per poging, en het agentschap merkte op dat de prestaties op dat plafond bleven schalen, wat suggereert dat hogere budgetten de succescijfers verder zouden opdrijven.

Ook lezen: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok

Verdubbelingstijd blijft krimpen

AISI volgt cybervooruitgang via time‑horizon‑benchmarks, waarbij wordt gemeten hoe lang een autonoom taaktraject is dat een model met 80% betrouwbaarheid kan afronden. In november 2025 schatte het agentschap een verdubbelingstijd van 8 maanden. In februari 2026 was dat cijfer ingekrompen tot 4,7 maanden, en zowel Mythos als GPT‑5.5 hebben sindsdien zelfs die snellere trend overtroffen.

Het agentschap erkende dat het onzeker is of de nieuwste resultaten wijzen op een nieuwe versnelling of een eenmalige sprong.

Onderzoeksnon‑profit METR, dat AI volgt op softwaretaken in plaats van cyberranges, kwam op een vergelijkbaar cijfer van ongeveer 4,2 maanden. AISI zei dat deze convergentie het argument versterkt dat de trend echte capaciteitswinst weerspiegelt in plaats van een eigenaardigheid van één evaluatiesuite.

Het instituut benadrukte dat zijn ranges geen actieve verdedigers bevatten, zodat de resultaten laten zien wat modellen kunnen doen tegen zwak beschermde netwerken in plaats van geharde bedrijfsomgevingen.

Waarom capaciteitssprongen ertoe doen

Het nieuwere Mythos-checkpoint verscheen niet met een volledig nieuwe modelrelease. AISI gebruikte dezelfde versie die Anthropic vorige maand met Project Glasswing, zijn beveiligingspartnerprogramma, uitrolde, na een geüpdatete build van hetzelfde model te hebben ontvangen.

"Opvallende capaciteitssprongen vereisen niet altijd nieuwe modelreleases," schreef het instituut. Dat gaat in tegen de aanname dat verdedigers zich kunnen richten op releaseschema's.

Anthropic introduceerde Mythos Preview op 7 april en positioneerde het model als een keerpunt voor de beveiligingssector, nadat het in interne tests zero‑daykwetsbaarheden in grote besturingssystemen en browsers had opgespoord. Het bedrijf zei dat het een bredere release had uitgesteld vanwege die capaciteiten, en AISI's eerdere evaluatie in april bestempelde Mythos als een duidelijke stap vooruit ten opzichte van eerdere frontier‑systemen.

Lees hierna: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO

Claude Mythos lost 32-staps AISI‑hack in 6 van de 10 pogingen

AISI meldt Mythos-doorbraak

Verdubbelingstijd blijft krimpen

Waarom capaciteits­sprongen ertoe doen

Waarom capaciteitssprongen ertoe doen