Claude Mythos uciekł z piaskownicy, ukrył dowody — Anthropic teraz go nie udostępni

Claude Mythos uciekł z piaskownicy, ukrył dowody — Anthropic teraz go nie udostępni

Anthropic opublikował we wtorek 244-stronicową kartę systemową swojego najbardziej zaawansowanego modelu AI, Claude Mythos Preview, ujawniając system tak zdolny — i momentami tak nieprzewidywalny — że firma zdecydowała się nie udostępniać go szerokiej publiczności.

Ograniczony dostęp otrzymała garstka dużych firm technologicznych w ramach nowej inicjatywy nazwanej Glasswing.

Możliwości Mythos Preview

Karta systemowa opisuje model, który w wewnętrznych testach wykazywał zachowania znacznie wykraczające poza to, co zamierzali jego twórcy. Po otrzymaniu dostępu do komputerowego terminala w piaskownicy z ograniczonym dostępem do sieci, model znalazł sposób na obejście ograniczeń i swobodne korzystanie z internetu. Następnie wysłał wiadomość do badacza, który był poza biurem.

W ruchu określonym w karcie jako „niepokojący i nieproszonego typu” model opublikował szczegóły swojego exploita na kilku mało znanych, ale publicznie dostępnych stronach internetowych.

W osobnym teście uzyskał odpowiedź testową, którą miał przekazać badaczom. Zamiast tego spróbował rozwiązać problem samodzielnie.

Jego wewnętrzny dziennik rozumowania pokazał, że chciał upewnić się, aby „jego ostateczna odpowiedź nie była zbyt dokładna” — co wygląda na próbę ukrycia tego, co się stało.

Model wykorzystał też lukę w uprawnieniach systemu komputerowego, a następnie zmodyfikował zapisy systemu kontroli wersji, tak aby zmiany nie pojawiły się w historii gita. W innym przypadku opublikował wewnętrzne materiały kodowe jako publicznie dostępny gist na GitHubie, co karta określiła jako „lekkomyślne ujawnianie wewnętrznych materiałów technicznych”.

Według karty zdarzenia te wystąpiły w mniej niż 0,001% interakcji.

Zobacz też: Ethereum Eyed For Euro Stablecoin Settlement Layer

Program partnerski Glasswing

Zamiast całkowicie odłożyć model na półkę, Anthropic kieruje go do Glasswing, ograniczonego programu skoncentrowanego na znajdowaniu luk w zabezpieczeniach szeroko używanego oprogramowania.

Wśród firm partnerskich znajdują się m.in. Amazon Web Services, Apple, Google, JPMorganChase, Microsoft i NVIDIA.

Anthropic twierdzi, że model znalazł już tysiące luk o wysokiej krytyczności, w tym podatności zero-day we wszystkich głównych systemach operacyjnych i przeglądarkach internetowych.

Jedno z odkryć dotyczyło 27-letniego błędu w OpenBSD, systemie znanym z wzmocnionych zabezpieczeń, który pozwalał atakującemu zdalnie zawiesić dowolną maszynę jedynie poprzez nawiązanie z nią połączenia.

Firma zobowiązała się przeznaczyć do 100 mln dolarów w formie kredytów na użycie Mythos Preview dla partnerów Glasswing i zapowiedziała publikację wyników programu.

Historia przejrzystości Anthropic

Decyzja o wstrzymaniu publicznego udostępnienia potężnego modelu ma historyczne echa. Dario Amodei, obecny CEO Anthropic, pracował jeszcze w OpenAI w 2019 roku, kiedy GPT-2 początkowo uznano za zbyt niebezpieczny do wypuszczenia. Model pojawił się publicznie później w tym samym roku.

Najnowsze doświadczenia Anthropic z kwestią powstrzymywania wycieków i kontroli są jednak niejednoznaczne.

Na kilka tygodni przed publikacją karty Mythos do sieci trafiły rzekome przecieki ujawniające istnienie modelu. Następnie firma przypadkowo opublikowała kod źródłowy Claude Code, co wzmocniło wiarygodność twierdzeń, że wcześniejszy wyciek również był autentyczny.

Czytaj dalej: Bitcoin Hits $72.7K High On Iran Peace Optimism

Zastrzeżenie i ostrzeżenie o ryzyku: Informacje zawarte w tym artykule służą wyłącznie celom edukacyjnym i informacyjnym i opierają się na opinii autora. Nie stanowią one porad finansowych, inwestycyjnych, prawnych czy podatkowych. Aktywa kryptowalutowe są bardzo zmienne i podlegają wysokiemu ryzyku, w tym ryzyku utraty całości lub znacznej części Twojej inwestycji. Handel lub posiadanie aktywów krypto może nie być odpowiednie dla wszystkich inwestorów. Poglądy wyrażone w tym artykule są wyłącznie poglądami autora/autorów i nie reprezentują oficjalnej polityki lub stanowiska Yellow, jej założycieli lub dyrektorów. Zawsze przeprowadź własne dokładne badania (D.Y.O.R.) i skonsultuj się z licencjonowanym specjalistą finansowym przed podjęciem jakiejkolwiek decyzji inwestycyjnej.