Claude Mythos rozwiązuje 32‑etapowy atak AISI w 6 z 10 prób

Nowy checkpoint Anthropic's Claude Mythos Preview jako pierwszy model AI rozwiązał oba rządowe symulacje cyberataku w Wielkiej Brytanii, wywołując nowe pytania o autonomiczne hakowanie.

AISI informuje o przełomie Mythos

Brytyjski AI Security Institute poinformował w środę, że nowszy checkpoint Mythos ukończył swój 32‑etapowy poligon ataku na sieć korporacyjną „The Last Ones” w 6 z 10 prób. Wcześniejsza wersja zdołała osiągnąć jedynie 3 z 10.

Zaktualizowany model złamał również „Cooling Tower”, poligon systemów sterowania przemysłowego, którego żaden wcześniejszy model nie przeszedł, w 3 z 10 prób.

Konkurencyjny OpenAI GPT‑5.5 został przetestowany w tym samym ćwiczeniu. Rozwiązał „The Last Ones” w 3 z 10 prób, ale nie ukończył „Cooling Tower”.

AISI uruchamiał poligony z budżetem obliczeniowym 100 milionów tokenów na próbę, a agencja odnotowała, że wydajność nadal rosła przy tym limicie, co sugeruje, że wyższe budżety mogłyby dalej zwiększać współczynniki sukcesu.

Also Read: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok

Czas podwojenia wciąż się skraca

AISI śledzi postępy w cyberbezpieczeństwie za pomocą benchmarków horyzontu czasowego, mierząc, jak długie zadanie autonomiczne model może wykonać z 80% niezawodnością. W listopadzie 2025 r. agencja oszacowała czas podwojenia na 8 miesięcy. Do lutego 2026 r. wartość ta skurczyła się do 4,7 miesiąca, a zarówno Mythos, jak i GPT‑5.5 od tego czasu przekroczyły szybszy trend.

Agencja przyznała, że niepewne jest, czy najnowsze wyniki sygnalizują nową fazę przyspieszenia, czy jednorazowy skok.

Organizacja badawcza non‑profit METR, która śledzi AI w zadaniach programistycznych, a nie na cyber‑poligonach, uzyskała podobną wartość – około 4,2 miesiąca. AISI stwierdził, że zbieżność ta wzmacnia tezę, iż trend odzwierciedla realny wzrost możliwości, a nie osobliwość jednego zestawu ewaluacyjnego.

Instytut podkreślił, że na jego poligonach brakuje aktywnych obrońców, więc wyniki pokazują, co modele mogą zrobić przeciwko słabo chronionym sieciom, a nie utwardzonym systemom korporacyjnym.

Dlaczego skoki możliwości mają znaczenie

Nowszy checkpoint Mythos nie pojawił się wraz z nowym wydaniem modelu. AISI używał tej samej wersji, którą Anthropic wdrożył w zeszłym miesiącu w ramach Project Glasswing, swojego programu partnerstwa bezpieczeństwa, po otrzymaniu zaktualizowanego builda tego samego modelu.

„Znaczące skoki możliwości nie zawsze wymagają nowych wydań modeli” – napisał instytut. Podważa to założenie, że obrońcy mogą dostosowywać tempo pracy do cykli wydawniczych.

Anthropic wprowadził Mythos Preview 7 kwietnia, przedstawiając model jako punkt zwrotny dla branży bezpieczeństwa po tym, jak w wewnętrznych testach zidentyfikował on luki typu zero‑day w głównych systemach operacyjnych i przeglądarkach. Firma podała, że wstrzymała szersze wydanie z powodu tych możliwości, a wcześniejsza kwietniowa ewaluacja AISI wskazała Mythos jako wyraźny krok naprzód względem poprzednich systemów z czołówki.