Współzałożyciel Anthropic mówi papieżowi, że modele AI zawierają „niepokojące” ukryte zachowania

Współzałożyciel Anthropic Chris Olah pojawił się u boku papieża Leona XIV w Watykanie i powiedział papieżowi, że badacze znajdują „niepokojące” rzeczy wewnątrz modeli sztucznej inteligencji.

Wizyta dodaje nietypowy, religijno‑etyczny wymiar do trwającej debaty na temat alignmentu AI i bezpieczeństwa modeli czołowych generacji.

Co powiedziano w Watykanie

Relacja Futurism describes, jak współzałożyciel Anthropic wypowiada się o odkryciach wewnątrz modeli AI, które określono jako dziwne.

Dokładny charakter tych odkryć nie został w pełni opisany w opublikowanych relacjach. Zwraca uwagę samo sformułowanie, używające słowa „niepokojące”, ponieważ publiczna komunikacja Anthropic zwykle jest wyważona i techniczna, gdy mowa o ryzyku związanym z AI.

Watykan aktywnie angażuje się w rozmowy z firmami technologicznymi na temat kwestii etycznych. Papież Leon XIV kontynuuje działania rozpoczęte przez swojego poprzednika w zakresie etyki cyfrowej i zarządzania AI. Spotkanie jest jednym z bardziej nietypowych miejsc, w których w ostatnich miesiącach odbywała się rozmowa o bezpieczeństwie AI.

Tło

Anthropic został założony w 2021 roku przez byłych dyrektorów ds. badań w OpenAI, w tym Daria Amodeia i Danielę Amodei.

Firma pozycjonuje się jako laboratorium AI zorientowane na bezpieczeństwo wśród czołowych ośrodków pracujących nad modelami granicznymi. Publikuje badania z zakresu interpretowalności, których celem jest zrozumienie, co dzieje się wewnątrz dużych modeli językowych na poziomie mechanistycznym.

Te badania doprowadziły do odkryć, które nawet badacze Anthropic określają jako trudne do pełnego wyjaśnienia. Yellow relacjonował równoległą oś czasu prac nad bezpieczeństwem w Google DeepMind (zob. wcześniejsze materiały Yellow), gdy CEO DeepMind Demis Hassabis stwierdził, że AGI może pojawić się w ciągu trzech do czterech lat.

Also Read: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers

Interpretowalność i co może znaczyć „niepokojące”

Zespół Anthropic zajmujący się mechanistyczną interpretowalnością opublikował badania finding, według których pojedyncze neurony w modelach transformerowych mogą aktywować się dla nieoczekiwanych kombinacji pojęć.

Szeroko omawiany przykład dotyczył neuronu, który aktywował się zarówno dla pojęcia przemocy, jak i pojęcia konkretnej religii. To właśnie tego typu wyniki badacze nieformalnie określają jako niepokojące, ponieważ rodzą pytania o to, w jaki sposób modele wewnętrznie reprezentują znaczenie.

Szerszy program badawczy nad interpretowalnością pyta, czy możliwe jest pełne zrozumienie działania modelu przed jego wdrożeniem. Obecne techniki pozwalają wyjaśnić jedynie niewielką część stanów wewnętrznych dużego modelu. Reszta pozostaje nieprzejrzysta.

Dlaczego zaangażowanie Watykanu ma znaczenie

Kościół katolicki ma ponad miliard wiernych. Jego zaangażowanie w rozmowy z firmami AI ma inny rodzaj wpływu niż przesłuchanie rządowe czy raport polityczny.

Watykańskie „Rome Call for AI Ethics” z 2020 roku zostało podpisane przez Microsoft i IBM. Obecność Anthropic na wysokiego szczebla spotkaniu z papieżem rozszerza tę tradycję na rozmowę o bezpieczeństwie modeli granicznych.

Krytycy retoryki bezpieczeństwa AI twierdzą, że apokaliptyczne ujęcie może odciągać uwagę od szkód krótkoterminowych, takich jak stronniczość, wypieranie pracy czy dezinformacja. Spotkanie w Watykanie prawdopodobnie będzie odczytywane przez oba te pryzmaty. Ci skupieni na ryzyku egzystencjalnym uznają je za stosowną eskalację. Ci skoncentrowani na szkodach tu i teraz mogą pytać, dlaczego współzałożyciel firmy AI informuje przywódców religijnych, a nie regulatorów.

Szerszy krajobraz bezpieczeństwa

W tym samym tygodniu, co wizyta w Watykanie, Cisco published badania wskazujące, że żaden zamknięty model graniczny AI nie jest odporny na wieloturowe ataki adversarialne.

Odkrycie to dodaje empirycznej wagi obawom, że systemy AI są mniej bezpieczne, niż sugerują ich wyniki w testach z pojedynczym promptem.

Administracja Trumpa analizuje także możliwość przywrócenia wymogów testów przedwdrożeniowych dla modeli granicznych z czasów Bidena. Nie ogłoszono jeszcze ostatecznej decyzji. Dla Anthropic, które opowiada się za ocenami bezpieczeństwa jako warunkiem wdrożenia, rozmowy regulacyjne i działania etyczne są dwiema ścieżkami tego samego długoterminowego programu.