Claude Mythos lost 32-staps AISI‑hack in 6 van de 10 pogingen

Claude Mythos lost 32-staps AISI‑hack in 6 van de 10 pogingen

Een nieuw checkpoint van Anthropic's Claude Mythos Preview is het eerste AI‑model geworden dat beide Britse overheidssimulaties van cyberaanvallen oplost, wat nieuwe vragen oproept over autonome hacking.

AISI meldt Mythos-doorbraak

Het Britse AI Security Institute meldde woensdag dat het nieuwere Mythos-checkpoint zijn 32‑staps bedrijfsnetwerkaanval‑range, "The Last Ones", in 6 van de 10 pogingen afrondde. De eerdere versie haalde slechts 3 van de 10.

Het bijgewerkte model kraakte ook "Cooling Tower", een industriële controlesysteem‑range die geen enkel eerder model had gehaald, in 3 van de 10 pogingen.

Rivaal OpenAI's GPT‑5.5 werd op dezelfde oefening getest. Het loste "The Last Ones" op in 3 van de 10 pogingen, maar voltooide "Cooling Tower" niet.

AISI draaide de ranges met een rekenbudget van 100 miljoen tokens per poging, en het agentschap merkte op dat de prestaties op dat plafond bleven schalen, wat suggereert dat hogere budgetten de succescijfers verder zouden opdrijven.

Ook lezen: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok

Verdubbelingstijd blijft krimpen

AISI volgt cybervooruitgang via time‑horizon‑benchmarks, waarbij wordt gemeten hoe lang een autonoom taaktraject is dat een model met 80% betrouwbaarheid kan afronden. In november 2025 schatte het agentschap een verdubbelingstijd van 8 maanden. In februari 2026 was dat cijfer ingekrompen tot 4,7 maanden, en zowel Mythos als GPT‑5.5 hebben sindsdien zelfs die snellere trend overtroffen.

Het agentschap erkende dat het onzeker is of de nieuwste resultaten wijzen op een nieuwe versnelling of een eenmalige sprong.

Onderzoeksnon‑profit METR, dat AI volgt op softwaretaken in plaats van cyberranges, kwam op een vergelijkbaar cijfer van ongeveer 4,2 maanden. AISI zei dat deze convergentie het argument versterkt dat de trend echte capaciteitswinst weerspiegelt in plaats van een eigenaardigheid van één evaluatiesuite.

Het instituut benadrukte dat zijn ranges geen actieve verdedigers bevatten, zodat de resultaten laten zien wat modellen kunnen doen tegen zwak beschermde netwerken in plaats van geharde bedrijfsomgevingen.

Waarom capaciteits­sprongen ertoe doen

Het nieuwere Mythos-checkpoint verscheen niet met een volledig nieuwe modelrelease. AISI gebruikte dezelfde versie die Anthropic vorige maand met Project Glasswing, zijn beveiligings­partnerprogramma, uitrolde, na een geüpdatete build van hetzelfde model te hebben ontvangen.

"Opvallende capaciteits­sprongen vereisen niet altijd nieuwe modelreleases," schreef het instituut. Dat gaat in tegen de aanname dat verdedigers zich kunnen richten op releaseschema's.

Anthropic introduceerde Mythos Preview op 7 april en positioneerde het model als een keerpunt voor de beveiligingssector, nadat het in interne tests zero‑daykwetsbaarheden in grote besturingssystemen en browsers had opgespoord. Het bedrijf zei dat het een bredere release had uitgesteld vanwege die capaciteiten, en AISI's eerdere evaluatie in april bestempelde Mythos als een duidelijke stap vooruit ten opzichte van eerdere frontier‑systemen.

Lees hierna: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO

Disclaimer en risicowaarschuwing: De informatie in dit artikel is uitsluitend voor educatieve en informatieve doeleinden en is gebaseerd op de mening van de auteur. Het vormt geen financieel, investerings-, juridisch of belastingadvies. Cryptocurrency-assets zijn zeer volatiel en onderhevig aan hoog risico, inclusief het risico om uw gehele of een substantieel deel van uw investering te verliezen. Het handelen in of aanhouden van crypto-assets is mogelijk niet geschikt voor alle beleggers. De meningen die in dit artikel worden geuit zijn uitsluitend die van de auteur(s) en vertegenwoordigen niet het officiële beleid of standpunt van Yellow, haar oprichters of haar leidinggevenden. Voer altijd uw eigen grondig onderzoek uit (D.Y.O.R.) en raadpleeg een gelicentieerde financiële professional voordat u een investeringsbeslissing neemt.
Claude Mythos lost 32-staps AISI‑hack in 6 van de 10 pogingen | Yellow.com