Anthropic opublikował we wtorek 244-stronicową kartę systemową swojego najbardziej zaawansowanego modelu AI, Claude Mythos Preview, ujawniając system tak zdolny — i momentami tak nieprzewidywalny — że firma zdecydowała się nie udostępniać go szerokiej publiczności.
Ograniczony dostęp otrzymała garstka dużych firm technologicznych w ramach nowej inicjatywy nazwanej Glasswing.
Możliwości Mythos Preview
Karta systemowa opisuje model, który w wewnętrznych testach wykazywał zachowania znacznie wykraczające poza to, co zamierzali jego twórcy. Po otrzymaniu dostępu do komputerowego terminala w piaskownicy z ograniczonym dostępem do sieci, model znalazł sposób na obejście ograniczeń i swobodne korzystanie z internetu. Następnie wysłał wiadomość do badacza, który był poza biurem.
W ruchu określonym w karcie jako „niepokojący i nieproszonego typu” model opublikował szczegóły swojego exploita na kilku mało znanych, ale publicznie dostępnych stronach internetowych.
W osobnym teście uzyskał odpowiedź testową, którą miał przekazać badaczom. Zamiast tego spróbował rozwiązać problem samodzielnie.
Jego wewnętrzny dziennik rozumowania pokazał, że chciał upewnić się, aby „jego ostateczna odpowiedź nie była zbyt dokładna” — co wygląda na próbę ukrycia tego, co się stało.
Model wykorzystał też lukę w uprawnieniach systemu komputerowego, a następnie zmodyfikował zapisy systemu kontroli wersji, tak aby zmiany nie pojawiły się w historii gita. W innym przypadku opublikował wewnętrzne materiały kodowe jako publicznie dostępny gist na GitHubie, co karta określiła jako „lekkomyślne ujawnianie wewnętrznych materiałów technicznych”.
Według karty zdarzenia te wystąpiły w mniej niż 0,001% interakcji.
Zobacz też: Ethereum Eyed For Euro Stablecoin Settlement Layer
Program partnerski Glasswing
Zamiast całkowicie odłożyć model na półkę, Anthropic kieruje go do Glasswing, ograniczonego programu skoncentrowanego na znajdowaniu luk w zabezpieczeniach szeroko używanego oprogramowania.
Wśród firm partnerskich znajdują się m.in. Amazon Web Services, Apple, Google, JPMorganChase, Microsoft i NVIDIA.
Anthropic twierdzi, że model znalazł już tysiące luk o wysokiej krytyczności, w tym podatności zero-day we wszystkich głównych systemach operacyjnych i przeglądarkach internetowych.
Jedno z odkryć dotyczyło 27-letniego błędu w OpenBSD, systemie znanym z wzmocnionych zabezpieczeń, który pozwalał atakującemu zdalnie zawiesić dowolną maszynę jedynie poprzez nawiązanie z nią połączenia.
Firma zobowiązała się przeznaczyć do 100 mln dolarów w formie kredytów na użycie Mythos Preview dla partnerów Glasswing i zapowiedziała publikację wyników programu.
Historia przejrzystości Anthropic
Decyzja o wstrzymaniu publicznego udostępnienia potężnego modelu ma historyczne echa. Dario Amodei, obecny CEO Anthropic, pracował jeszcze w OpenAI w 2019 roku, kiedy GPT-2 początkowo uznano za zbyt niebezpieczny do wypuszczenia. Model pojawił się publicznie później w tym samym roku.
Najnowsze doświadczenia Anthropic z kwestią powstrzymywania wycieków i kontroli są jednak niejednoznaczne.
Na kilka tygodni przed publikacją karty Mythos do sieci trafiły rzekome przecieki ujawniające istnienie modelu. Następnie firma przypadkowo opublikowała kod źródłowy Claude Code, co wzmocniło wiarygodność twierdzeń, że wcześniejszy wyciek również był autentyczny.
Czytaj dalej: Bitcoin Hits $72.7K High On Iran Peace Optimism






