Claude Mythos lost 32-staps AISI-hack in 6 van de 10 pogingen op

Claude Mythos lost 32-staps AISI-hack in 6 van de 10 pogingen op

Een nieuwe checkpoint van Anthropic's Claude Mythos Preview is het eerste AI-model geworden dat beide Britse overheidssimulaties van cyberaanvallen oplost, wat nieuwe vragen oproept over autonoom hacken.

AISI meldt Mythos-doorbraak

Het Britse AI Security Institute meldde woensdag dat de nieuwere Mythos-checkpoint zijn 32-staps aanval op een bedrijfsnetwerkomgeving, "The Last Ones", in 6 van de 10 pogingen voltooide. De eerdere versie haalde slechts 3 van de 10.

Het bijgewerkte model kraakte ook "Cooling Tower", een industriële besturingssysteemrange die geen enkel eerder model had gehaald, in 3 van de 10 pogingen.

Rivaal OpenAI's GPT-5.5 werd op dezelfde oefening getest. Het loste "The Last Ones" op in 3 van de 10 pogingen, maar voltooide "Cooling Tower" niet.

AISI draaide de ranges met een rekenbudget van 100 miljoen tokens per poging, en het agentschap merkte op dat de prestaties bleven opschalen op dat plafond, wat suggereert dat hogere budgetten de succespercentages verder zouden opdrijven.

Ook lezen: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok

Verdubbelingstijd blijft krimpen

AISI volgt cybervooruitgang via tijdshorizonbenchmarks, waarbij wordt gemeten hoe lang een autonoom taaktraject is dat een model met 80% betrouwbaarheid kan afronden. In november 2025 schatte het agentschap een verdubbelingstijd van 8 maanden. In februari 2026 was dat cijfer ingekrompen tot 4,7 maanden, en zowel Mythos als GPT-5.5 hebben sindsdien zelfs deze snellere trend overtroffen.

Het agentschap erkende dat er onzekerheid is over de vraag of de nieuwste resultaten wijzen op een nieuwe versnelling of een eenmalige sprong.

Onderzoeks-non-profitorganisatie METR, die AI volgt op softwaretaken in plaats van cyberranges, kwam uit op een vergelijkbaar cijfer van ongeveer 4,2 maanden. AISI zei dat deze convergentie het argument versterkt dat de trend echte capaciteitsgroei weerspiegelt in plaats van een eigenaardigheid van één evaluatiesuite.

Het instituut benadrukte dat zijn ranges geen actieve verdedigers hebben, waardoor de resultaten laten zien wat modellen kunnen doen tegen zwak beschermde netwerken in plaats van tegen geharde bedrijfssystemen.

Waarom capaciteitsprongen ertoe doen

De nieuwere Mythos-checkpoint werd niet geïntroduceerd met een volledig nieuwe modelrelease. AISI gebruikte dezelfde versie die Anthropic vorige maand uitrolde met Project Glasswing, zijn beveiligingspartnerschapsprogramma, nadat het een bijgewerkte build van hetzelfde model had ontvangen.

"Aanzienlijke capaciteitsprongen vereisen niet altijd nieuwe modelreleases," schreef het instituut. Dat druist in tegen de aanname dat verdedigers hun tempo kunnen afstemmen op lanceringscycli.

Anthropic introduceerde Mythos Preview op 7 april en presenteerde het model als een keerpunt voor de beveiligingssector, nadat het in interne tests zero-daylekken in grote besturingssystemen en browsers had geïdentificeerd. Het bedrijf zei dat het een bredere uitrol had uitgesteld vanwege die capaciteiten, en AISI's eerdere evaluatie in april bestempelde Mythos als een duidelijke stap voorwaarts ten opzichte van eerdere frontiermodellen.

Lees hierna: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO

Disclaimer en risicowaarschuwing: De informatie in dit artikel is uitsluitend voor educatieve en informatieve doeleinden en is gebaseerd op de mening van de auteur. Het vormt geen financieel, investerings-, juridisch of belastingadvies. Cryptocurrency-assets zijn zeer volatiel en onderhevig aan hoog risico, inclusief het risico om uw gehele of een substantieel deel van uw investering te verliezen. Het handelen in of aanhouden van crypto-assets is mogelijk niet geschikt voor alle beleggers. De meningen die in dit artikel worden geuit zijn uitsluitend die van de auteur(s) en vertegenwoordigen niet het officiële beleid of standpunt van Yellow, haar oprichters of haar leidinggevenden. Voer altijd uw eigen grondig onderzoek uit (D.Y.O.R.) en raadpleeg een gelicentieerde financiële professional voordat u een investeringsbeslissing neemt.
Claude Mythos lost 32-staps AISI-hack in 6 van de 10 pogingen op | Yellow.com