Claude Mythos résout un piratage AISI en 32 étapes lors de 6 tentatives sur 10

Un nouveau checkpoint du Claude Mythos Preview d’Anthropic est devenu le premier modèle d’IA à résoudre les deux simulations de cyberattaque du gouvernement britannique, soulevant de nouvelles questions sur le piratage autonome.

L’AISI annonce une percée de Mythos

L’AI Security Institute britannique a rapporté mercredi que le nouveau checkpoint de Mythos avait terminé son cyber-range d’attaque de réseau d’entreprise en 32 étapes, « The Last Ones », lors de 6 tentatives sur 10. La version précédente n’en avait réussi que 3 sur 10.

Le modèle mis à jour a également réussi « Cooling Tower », un cyber-range de système de contrôle industriel qu’aucun modèle précédent n’avait passé, lors de 3 tentatives sur 10.

Le GPT-5.5 du concurrent OpenAI a été testé sur le même exercice. Il a résolu « The Last Ones » lors de 3 tentatives sur 10, mais n’a pas terminé « Cooling Tower ».

L’AISI a exécuté les ranges avec un budget de calcul de 100 millions de tokens par tentative, et l’agence a noté que les performances continuaient à progresser à ce plafond, ce qui suggère que des budgets plus élevés feraient encore augmenter les taux de réussite.

Un temps de doublement en baisse constante

L’AISI suit les progrès en cybersécurité à l’aide de repères d’horizon temporel, mesurant la durée maximale d’une tâche autonome que le modèle peut achever avec 80 % de fiabilité. En novembre 2025, l’agence estimait un temps de doublement de 8 mois. En février 2026, ce chiffre s’était compressé à 4,7 mois, et Mythos comme GPT-5.5 ont depuis dépassé cette tendance plus rapide.

L’agence a reconnu qu’il restait une incertitude quant à savoir si ces derniers résultats indiquent une nouvelle accélération ou un saut ponctuel.

L’ONG de recherche METR, qui suit les performances de l’IA sur des tâches logicielles plutôt que sur des cyber-ranges, est arrivée à un chiffre similaire d’environ 4,2 mois. L’AISI a indiqué que cette convergence renforce l’idée que la tendance reflète de réels gains de capacités plutôt qu’une particularité d’une seule suite d’évaluation.

L’institut a souligné que ses ranges ne comportent pas de défenseurs actifs : les résultats montrent donc ce que les modèles peuvent faire contre des réseaux faiblement protégés plutôt que contre des systèmes d’entreprise durcis.

Pourquoi les bonds de capacité comptent

Le nouveau checkpoint de Mythos n’est pas arrivé avec une nouvelle version de modèle. L’AISI a utilisé la même version qu’Anthropic a déployée le mois dernier avec Project Glasswing, son programme de partenariat en sécurité, après avoir reçu une build mise à jour du même modèle.

« Des bonds de capacité notables ne nécessitent pas toujours de nouvelles versions de modèle », a écrit l’institut. Cela va à l’encontre de l’idée que les défenseurs peuvent caler leur rythme sur les cycles de lancement.

Anthropic a présenté Mythos Preview le 7 avril, décrivant le modèle comme un tournant pour l’industrie de la sécurité après qu’il a identifié des failles zero-day dans les principaux systèmes d’exploitation et navigateurs lors de tests internes. L’entreprise a indiqué qu’elle avait retardé une diffusion plus large en raison de ces capacités, et l’évaluation d’avril de l’AISI avait déjà signalé Mythos comme une nette avancée par rapport aux systèmes de pointe précédents.