Anthropic udostępni Claude Mythos opinii publicznej, gdy zabezpieczenia nadrobią zaległości, być może za 12 miesięcy

Anthropic deklaruje, że zamierza udostępnić opinii publicznej model Mythos, its vulnerability-hunting AI, ale dopiero wtedy, gdy zbuduje mechanizmy zabezpieczeń, które jeszcze nie istnieją.

Najważniejsze punkty:

Anthropic planuje szeroko udostępnić modele klasy Mythos po wcześniejszym rozszerzeniu dostępu dla rządów USA i sojuszników.

Firma przyznaje, że żadna organizacja, włącznie z nią samą, nie stworzyła zabezpieczeń wystarczająco silnych, by powstrzymać nadużycia.

Mythos wykrył ponad 23 000 problemów w 1 000 projektów open source, w tym 6 202 o wysokiej lub krytycznej wadze.

Udostępnienie Anthropic Mythos

Anthropic potwierdziło ten plan w aktualizacji Project Glasswing, swojego programu bezpieczeństwa z ograniczonym dostępem, a osobny raport zaznaczył, że harmonogram pozostaje niepewny.

Firma zapowiedziała, że najpierw będzie współpracować z rządami USA i państw sojuszniczych, aby rozszerzyć program. Szersze udostępnienie „modeli klasy Mythos” miałoby nastąpić w niedalekiej przyszłości.

Anthropic mówił o ryzyku wprost. Firma stwierdziła, że żadna firma, włącznie z nią samą, nie stworzyła zabezpieczeń na tyle silnych, by zapobiec nadużyciom modelu i poważnym szkodom.

Mimo to spółka spodziewa się szybkiego rozprzestrzenienia podobnych narzędzi, przewidując, że modele na poziomie Mythos staną się szeroko dostępne w ciągu sześciu do dwunastu miesięcy.

Mythos zadebiutował w kwietniu. Anthropic podało, że w testach generował działające exploity w 72,4 procent przypadków, w porównaniu z niemal zerem w przypadku wcześniejszego modelu Claude.

Zobacz też: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks

Odkrycia podatności przez Mythos

Od debiutu model zeskanował ponad 1 000 projektów open source i ujawnił 23 019 problemów, z czego 6 202 oceniono jako o wysokiej lub krytycznej wadze.

Jedno odkrycie szczególnie się wyróżniło. Mythos znalazł lukę w bibliotece kryptograficznej wolfSSL, używanej przez miliardy urządzeń, która mogła pozwolić atakującym fałszować certyfikaty i podszywać się pod banki lub dostawców poczty e‑mail. Luka została już załatana.

Lawina zgłoszeń przeciążyła osoby odpowiedzialne za ich naprawę. Opiekunowie projektów open source poprosili Anthropic o spowolnienie ujawnień, argumentując, że skala raportów przekracza ich możliwości przerobowe.

Badacze dostrzegają głębszą nierównowagę. Anthropic twierdzi, że znajdowanie błędów stało się teraz znacznie łatwiejsze niż ich naprawianie, a firma nawiązała współpracę z projektem Alpha-Omega Open Source Security Foundation, aby pomóc opiekunom w porządkowaniu zaległości.

Karta systemowa Claude Mythos przewiduje, że z czasem SI zacznie faworyzować obrońców, choć Anthropic przyznaje, że obecnie przewagę mogą mieć atakujący.

Kiedy Mythos został po raz pierwszy ujawniony, Anthropic dało dostęp do niego ponad 50 organizacjom, w tym Apple, Microsoftowi i Google, wraz z około 100 milionami dolarów w kredytach na wykorzystanie, wstrzymując jednak model przed opinią publiczną ze względu na jego zdolność do „uzbrajania” luk w oprogramowaniu.

Przeczytaj także: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High