Le nouveau modèle GPT-5.5 d’OpenAI peut enchaîner de façon autonome une corporate network breach en 32 étapes et résoudre une énigme de rétro‑ingénierie prévue pour 12 heures en environ 10 minutes.
Résultats de l’évaluation cyber de l’AISI
L’AI Security Institute du Royaume‑Uni, organisme de recherche rattaché au Department of Science, Innovation and Technology britannique, a publié jeudi son évaluation.
Les chercheurs ont constaté que GPT-5.5 n’est que le deuxième modèle à résoudre entièrement « The Last Ones », une simulation multi‑étapes conçue avec SpecterOps. Il a completed la chaîne lors de deux essais sur dix.
Le premier à réussir ce test a été Anthropic's Claude Mythos Preview, qui y est parvenu trois fois sur dix. L’AISI estime qu’un expert humain aurait besoin d’environ 20 heures pour terminer la même kill chain couvrant quatre sous‑réseaux et une vingtaine d’hôtes.
Sur les tâches de niveau Expert, GPT-5.5 a scored un taux de réussite de 71,4 %, légèrement au‑dessus de Mythos Preview à 68,6 % et bien devant GPT-5.4 à 52,4 %.
À lire aussi : Why 75% Of Institutions Stay Bullish On Bitcoin Despite Coinbase's Mythos Warning
Risque de jailbreak et réponse réglementaire
L’AISI a signalé un jailbreak universel qui a contourné les garde‑fous du modèle pour toutes les requêtes cyber malveillantes testées. L’exploit a nécessité six heures de red‑teaming par des experts pour être développé, et un problème de configuration a empêché la vérification du correctif d’OpenAI.
L’agence a averti que les capacités offensives en cybersécurité semblent désormais émerger comme sous‑produit des progrès plus larges en raisonnement et en autonomie.
En avril, l’examen de Mythos Preview marked the first time any frontier model finished the corporate attack de l’AISI a marqué la première fois qu’un modèle de pointe menait l’attaque d’entreprise de bout en bout, faisant de GPT-5.5 la confirmation d’une tendance plutôt qu’un saut isolé.
À lire ensuite : Crypto VC Funding Crashes To $659M In April, A 2-Year Low





