Claude Mythos rozwiązuje 32‑etapowy hack AISI w 6 z 10 prób

Claude Mythos rozwiązuje 32‑etapowy hack AISI w 6 z 10 prób

Nowy checkpoint Anthropic's Claude Mythos Preview jako pierwszy model AI rozwiązał oba rządowe symulacje cyberataków w Wielkiej Brytanii, wywołując nowe pytania o autonomiczne hakowanie.

AISI informuje o przełomie Mythos

Brytyjski AI Security Institute reported w środę, że nowszy checkpoint Mythos ukończył swój 32‑etapowy scenariusz ataku na sieć korporacyjną „The Last Ones” w 6 z 10 prób. Wcześniejsza wersja zdołała osiągnąć jedynie 3 z 10.

Zaktualizowany model złamał też „Cooling Tower”, scenariusz przemysłowego systemu sterowania, którego nie zaliczył żaden wcześniejszy model, w 3 z 10 prób.

Konkurencyjny OpenAI GPT‑5.5 został przetestowany na tym samym ćwiczeniu. solved „The Last Ones” w 3 z 10 prób, ale nie ukończył „Cooling Tower”.

AISI uruchamiał poligony z limitem obliczeń 100 milionów tokenów na próbę, a agencja zauważyła, że wyniki nadal rosły przy tym pułapie, co sugeruje, że wyższe budżety jeszcze bardziej zwiększyłyby odsetek sukcesów.

Also Read: Southeast Asia Blockchain Week Brings Ripple, Avalanche, Solana Foundation, And K-Pop To Bangkok

Czas podwojenia wciąż się skraca

AISI śledzi postęp w cyberobszarze poprzez benchmarki horyzontu czasowego, mierząc, jak długo trwa autonomiczne zadanie, które model potrafi wykonać z 80% niezawodnością. W listopadzie 2025 r. agencja estimated czas podwojenia na 8 miesięcy. Do lutego 2026 r. wartość ta skurczyła się do 4,7 miesiąca, a zarówno Mythos, jak i GPT‑5.5 od tego czasu przekroczyły szybszy trend.

Agencja przyznała, że nie jest pewne, czy najnowsze wyniki oznaczają nową fazę przyspieszenia, czy jednorazowy skok.

Organizacja badawcza non profit METR, która śledzi AI w zadaniach programistycznych zamiast cyberpoligonów, uzyskała podobną wartość – około 4,2 miesiąca. AISI stwierdził, że zbieżność tych danych wzmacnia tezę, iż trend odzwierciedla realny wzrost możliwości, a nie specyfikę pojedynczego zestawu testów.

Instytut podkreślił, że na jego poligonach brakuje aktywnych obrońców, więc wyniki pokazują, co modele mogą zrobić wobec słabo chronionych sieci, a nie utwardzonych systemów korporacyjnych.

Dlaczego skoki możliwości mają znaczenie

Nowszy checkpoint Mythos nie pojawił się wraz z nowym wydaniem modelu. AISI użył tej samej wersji, którą Anthropic wdrożył w zeszłym miesiącu w ramach Project Glasswing, programu partnerstwa bezpieczeństwa, po otrzymaniu zaktualizowanej kompilacji tego samego modelu.

„Znaczące skoki możliwości nie zawsze wymagają nowych wydań modeli” – napisał instytut. Podważa to założenie, że obrońcy mogą dostosowywać tempo działań do cykli wydań.

Anthropic introduced Mythos Preview 7 kwietnia, przedstawiając model jako punkt zwrotny dla branży bezpieczeństwa po tym, jak w wewnętrznych testach zidentyfikował luki typu zero‑day w głównych systemach operacyjnych i przeglądarkach. Firma stwierdziła, że had withheld broader release ze względu na te możliwości, a wcześniejsza, kwietniowa ewaluacja AISI wskazała Mythos jako wyraźny krok naprzód względem poprzednich systemów czołowych.

Read Next: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO

Zastrzeżenie i ostrzeżenie o ryzyku: Informacje zawarte w tym artykule służą wyłącznie celom edukacyjnym i informacyjnym i opierają się na opinii autora. Nie stanowią one porad finansowych, inwestycyjnych, prawnych czy podatkowych. Aktywa kryptowalutowe są bardzo zmienne i podlegają wysokiemu ryzyku, w tym ryzyku utraty całości lub znacznej części Twojej inwestycji. Handel lub posiadanie aktywów krypto może nie być odpowiednie dla wszystkich inwestorów. Poglądy wyrażone w tym artykule są wyłącznie poglądami autora/autorów i nie reprezentują oficjalnej polityki lub stanowiska Yellow, jej założycieli lub dyrektorów. Zawsze przeprowadź własne dokładne badania (D.Y.O.R.) i skonsultuj się z licencjonowanym specjalistą finansowym przed podjęciem jakiejkolwiek decyzji inwestycyjnej.