Anthropic 공동 설립자, 교황에게 AI 모델 안에 "불안한" 숨겨진 행동들이 있다고 말하다

Anthropic 공동 설립자 크리스 올라(Chris Olah)는 바티칸에서 교황 레오 14세와 함께 자리하여, 연구자들이 인공지능 모델 내부에서 "불안한(unsettling)" 것들을 발견하고 있다고 밝혔다.

이번 방문은 AI 정렬(alignment)과 최전선(frontier) 모델 안전을 둘러싼 논쟁에 종교·윤리적 차원을 더하는 이례적인 사례로 여겨진다.

바티칸에서 어떤 이야기가 오갔나

Futurism 보도는, Anthropic 공동 설립자가 AI 모델 내부에서의 발견들을 두고 기이하다고 표현했다고 전하고 있다.

이러한 발견의 구체적인 성격은 공개된 기사들에서 완전히 상세히 다뤄지지는 않았다. 그러나 "불안한(unsettling)"이라는 표현을 사용한 점은 눈에 띄는데, Anthropic의 공개 커뮤니케이션은 대체로 AI 위험을 매우 절제되고 기술적인 언어로 설명해 왔기 때문이다.

바티칸은 그동안 기술 기업들과 윤리 문제를 두고 적극적으로 대화를 이어 왔다. 교황 레오 14세는 전임 교황 시절부터 이어져 온 디지털 윤리와 AI 거버넌스 관련 외연 확장을 계속하고 있다. 이번 만남은 최근 몇 달 사이 가장 이례적인 AI 안전 논의의 장 가운데 하나로 평가된다.

배경

Anthropic은 2021년 전 OpenAI 연구 임원들이었던 다리오 아모데이(Dario Amodei), 다니엘라 아모데이(Daniela Amodei) 등을 중심으로 설립되었다.

이 회사는 최전선 AI 연구소들 가운데에서 특히 안전에 초점을 맞춘 대안이라는 입지를 구축해 왔다. 대규모 언어 모델 내부에서 어떤 일이 기계적 수준에서 일어나는지 이해하려는 해석가능성 연구를 활발히 내놓고 있다.

그러한 연구 결과 중 일부는 Anthropic 연구자들 스스로도 완전히 설명하기 어렵다고 표현해 온 것들이다. Yellow는 구글 DeepMind의 병행 안전 로드맵(이전 Yellow 보도 참조)도 다룬 바 있는데, 당시 DeepMind CEO 데미스 허사비스(Demis Hassabis)는 AGI가 3~4년 안에 도달할 수 있다고 발언했었다.

Also Read: Champion Hacker Says Claude Mythos Could Soon Outpace Top Hackers

해석가능성과 "불안한"의 의미

Anthropic의 기계적(mechanistic) 해석가능성 팀은 트랜스포머 모델 내부 개별 뉴런이 예상 밖의 개념 조합에 대해 활성화될 수 있다는 연구 결과를 발표해 왔다.

널리 회자된 예시 가운데 하나는, 폭력이라는 개념과 특정 종교라는 개념 양쪽 모두에 대해 활성화되는 뉴런에 관한 것이었다. 연구자들이 비공식적으로 이를 "불안한" 발견이라고 부르는 이유는, 이런 현상들이 모델이 내부적으로 의미를 어떻게 표현하는지에 대한 질문을 제기하기 때문이다.

보다 넓은 해석가능성 연구 의제는, 모델을 배포하기 전에 그 모델이 무엇을 하고 있는지 충분히 이해하는 것이 가능한지 묻는다. 현재 기법들은 거대 모델 내부 상태의 일부분만 설명할 수 있으며, 나머지는 여전히 불투명한 영역으로 남아 있다.

바티칸과의 교류가 중요한 이유

가톨릭 교회는 10억 명이 넘는 신자를 보유하고 있다. 이와 같은 종교 기관이 AI 기업들과 교류할 때의 영향력은, 정부 청문회나 정책 보고서와는 다른 차원의 것이라고 볼 수 있다.

바티칸은 2020년 "AI 윤리를 위한 로마 선언(Rome Call for AI Ethics)"을 발표했고, 이 문서에는 마이크로소프트와 IBM이 서명했다. 교황과의 고위급 회동에 Anthropic이 참석한 것은, 이러한 전통을 최전선 AI 안전 논의로 확장하는 행보라 할 수 있다.

AI 안전 담론의 비판자들은, 종말론적 프레이밍이 편향, 노동 대체, 허위정보 등 단기적 해악으로부터 관심을 빼앗을 수 있다고 주장한다. 이번 바티칸 회동은 두 가지 렌즈 모두를 통해 해석될 가능성이 높다. 실존적(existential) 위험에 초점을 맞춘 이들은 이를 적절한 수위의 경각심 제고로 볼 것이고, 즉각적인 피해에 초점을 맞춘 이들은 왜 AI 기업의 공동 설립자가 규제 당국이 아닌 종교 지도자에게 브리핑을 하고 있는지 의문을 제기할 수 있다.

더 넓은 안전 환경

바티칸 방문과 같은 주에, 시스코는 어떤 폐쇄형 최전선 AI 모델도 다중 턴 적대적 공격에 완전히 면역이지 않다는 연구 결과를 발표했다.

이 결과는, AI 시스템이 단일 프롬프트 기준 성능이 시사하는 것보다 실제로는 덜 안전할 수 있다는 우려에 실증적 근거를 더해 준다.

트럼프 행정부는 또한, 바이든 행정부 시절의 최전선 모델 사전 배포 테스트 요구 사항을 부활시킬지 여부를 검토해 왔다. 아직 최종 결정은 발표되지 않았다. 배포의 전제 조건으로 안전성 평가를 주장해 온 Anthropic 입장에서는, 규제 논의와 윤리적 아웃리치가 장기적 의제의 두 축이라 할 수 있다.