Najnowszy model OpenAI, GPT-5.5, potrafi autonomicznie przeprowadzić 32‑etapowe corporate network breach i rozwiązać 12‑godzinne zadanie z inżynierii wstecznej w około 10 minut.
Wyniki oceny cyberbezpieczeństwa AISI
Brytyjski AI Security Institute, jednostka badawcza w ramach Departamentu Nauki, Innowacji i Technologii, published swoją ocenę w czwartek.
Badacze ustalili, że GPT-5.5 jest dopiero drugim modelem, który w pełni rozwiązał „The Last Ones”, wieloetapową symulację stworzoną we współpracy z SpecterOps. completed łańcuch w dwóch z dziesięciu prób.
Pierwszym, który przeszedł test, był Anthropic's Claude Mythos Preview, osiągając trzy udane podejścia na dziesięć. AISI szacuje, że ludzki ekspert potrzebowałby około 20 godzin, aby ukończyć ten sam „kill chain” obejmujący cztery podsieci i około 20 hostów.
W zadaniach na poziomie eksperckim GPT-5.5 scored współczynnik zaliczeń 71,4%, nieznacznie powyżej Mythos Preview z 68,6% i wyraźnie powyżej GPT-5.4 z 52,4%.
Also Read: Why 75% Of Institutions Stay Bullish On Bitcoin Despite Coinbase's Mythos Warning
Ryzyko jailbreaku i reakcja regulacyjna
AISI zidentyfikował uniwersalny jailbreak, który obchodził zabezpieczenia modelu dla każdego złośliwego zapytania cybernetycznego objętego testami. Opracowanie exploita zajęło sześć godzin pracy ekspertów od red‑teamingu, a problem z konfiguracją uniemożliwił weryfikację poprawki OpenAI.
Agencja ostrzegła, że ofensywne zdolności cybernetyczne zaczynają się pojawiać jako efekt uboczny szerszego postępu w rozumowaniu i autonomii.
W kwietniu przegląd Mythos Preview marked the first time any frontier model finished the corporate attack w pełnym zakresie oznaczał pierwszy przypadek, gdy jakikolwiek model z czołówki ukończył symulowany atak korporacyjny od początku do końca, co sprawia, że GPT-5.5 jest potwierdzeniem trendu, a nie pojedynczym skokiem.
Read Next: Crypto VC Funding Crashes To $659M In April, A 2-Year Low





