Das neueste Modell von OpenAI, GPT-5.5, kann eigenständig eine 32-stufige corporate network breach durchführen und ein 12-stündiges Reverse-Engineering-Rätsel in etwa 10 Minuten lösen.
Ergebnisse der AISI-Cyber-Bewertung
Das britische AI Security Institute, eine Forschungseinrichtung innerhalb des britischen Ministeriums für Wissenschaft, Innovation und Technologie, hat am Donnerstag seine Bewertung published.
Die Forschenden stellten fest, dass GPT-5.5 erst das zweite Modell ist, das „The Last Ones“, eine mehrstufige Simulation, die mit SpecterOps entwickelt wurde, vollständig lösen konnte. Es completed die Kette in zwei von zehn Versuchen.
Das erste Modell, das den Test bestand, war Anthropic's Claude Mythos Preview, das drei von zehn Versuchen schaffte. AISI schätzt, dass ein menschlicher Experte etwa 20 Stunden benötigen würde, um dieselbe Kill Chain über vier Subnetze und rund 20 Hosts hinweg abzuschließen.
Bei Aufgaben auf Expertenniveau scored GPT-5.5 eine Erfolgsquote von 71,4 % und lag damit knapp über Mythos Preview mit 68,6 % und deutlich vor GPT-5.4 mit 52,4 %.
Auch lesen: Why 75% Of Institutions Stay Bullish On Bitcoin Despite Coinbase's Mythos Warning
Jailbreak-Risiko und politische Reaktion
AISI meldete einen universellen Jailbreak, der die Schutzmechanismen des Modells bei jeder getesteten böswilligen Cyberanfrage umgehen konnte. Die Entwicklung des Exploits erforderte sechs Stunden Experten-Red-Teaming, und ein Konfigurationsproblem verhinderte die Überprüfung von OpenAIs Patch.
Die Behörde warnte, dass offensive Cyberfähigkeiten nun offenbar als Nebenprodukt breiterer Fortschritte in Bezug auf Schlussfolgerungsvermögen und Autonomie entstehen.
Im April markierte AISIS Bewertung von Mythos Preview marked the first time any frontier model finished the corporate attack die erste Instanz, in der ein Frontier-Modell den Unternehmensangriff durchgängig abschloss. GPT-5.5 wird damit eher als Bestätigung eines Trends denn als einmaliger Sprung eingeordnet.
Als Nächstes lesen: Crypto VC Funding Crashes To $659M In April, A 2-Year Low





