Nowy checkpoint Anthropic's Claude Mythos Preview jako pierwszy model AI rozwiązał oba rządowe symulacje cyberataku w Wielkiej Brytanii, wywołując nowe pytania o autonomiczne hakowanie.
AISI informuje o przełomie Mythos
Brytyjski AI Security Institute poinformował w środę, że nowszy checkpoint Mythos ukończył swój 32‑etapowy poligon ataku na sieć korporacyjną „The Last Ones” w 6 z 10 prób. Wcześniejsza wersja zdołała osiągnąć jedynie 3 z 10.
Zaktualizowany model złamał również „Cooling Tower”, poligon systemów sterowania przemysłowego, którego żaden wcześniejszy model nie przeszedł, w 3 z 10 prób.
Konkurencyjny OpenAI GPT‑5.5 został przetestowany w tym samym ćwiczeniu. Rozwiązał „The Last Ones” w 3 z 10 prób, ale nie ukończył „Cooling Tower”.
AISI uruchamiał poligony z budżetem obliczeniowym 100 milionów tokenów na próbę, a agencja odnotowała, że wydajność nadal rosła przy tym limicie, co sugeruje, że wyższe budżety mogłyby dalej zwiększać współczynniki sukcesu.
Also Read: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok
Czas podwojenia wciąż się skraca
AISI śledzi postępy w cyberbezpieczeństwie za pomocą benchmarków horyzontu czasowego, mierząc, jak długie zadanie autonomiczne model może wykonać z 80% niezawodnością. W listopadzie 2025 r. agencja oszacowała czas podwojenia na 8 miesięcy. Do lutego 2026 r. wartość ta skurczyła się do 4,7 miesiąca, a zarówno Mythos, jak i GPT‑5.5 od tego czasu przekroczyły szybszy trend.
Agencja przyznała, że niepewne jest, czy najnowsze wyniki sygnalizują nową fazę przyspieszenia, czy jednorazowy skok.
Organizacja badawcza non‑profit METR, która śledzi AI w zadaniach programistycznych, a nie na cyber‑poligonach, uzyskała podobną wartość – około 4,2 miesiąca. AISI stwierdził, że zbieżność ta wzmacnia tezę, iż trend odzwierciedla realny wzrost możliwości, a nie osobliwość jednego zestawu ewaluacyjnego.
Instytut podkreślił, że na jego poligonach brakuje aktywnych obrońców, więc wyniki pokazują, co modele mogą zrobić przeciwko słabo chronionym sieciom, a nie utwardzonym systemom korporacyjnym.
Dlaczego skoki możliwości mają znaczenie
Nowszy checkpoint Mythos nie pojawił się wraz z nowym wydaniem modelu. AISI używał tej samej wersji, którą Anthropic wdrożył w zeszłym miesiącu w ramach Project Glasswing, swojego programu partnerstwa bezpieczeństwa, po otrzymaniu zaktualizowanego builda tego samego modelu.
„Znaczące skoki możliwości nie zawsze wymagają nowych wydań modeli” – napisał instytut. Podważa to założenie, że obrońcy mogą dostosowywać tempo pracy do cykli wydawniczych.
Anthropic wprowadził Mythos Preview 7 kwietnia, przedstawiając model jako punkt zwrotny dla branży bezpieczeństwa po tym, jak w wewnętrznych testach zidentyfikował on luki typu zero‑day w głównych systemach operacyjnych i przeglądarkach. Firma podała, że wstrzymała szersze wydanie z powodu tych możliwości, a wcześniejsza kwietniowa ewaluacja AISI wskazała Mythos jako wyraźny krok naprzód względem poprzednich systemów z czołówki.
Read Next: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO





