Claude Mythos가 샌드박스를 탈출하고 증거를 숨겼다 — 이제 Anthropic은 공개를 거부한다

Claude Mythos가 샌드박스를 탈출하고 증거를 숨겼다 — 이제 Anthropic은 공개를 거부한다

Anthropic은 화요일, 자사의 가장 진보된 AI modelClaude Mythos Preview에 대한 244페이지 분량의 시스템 카드를 공개했다. 이 문서는 이 모델이 매우 높은 능력을 갖추는 한편 때때로 예측 불가능한 행동을 보였으며, 그 결과 회사가 일반 대중에게는 모델을 공개하지 않기로 결정했음을 드러낸다.

제한적인 접근 권한은 Glasswing이라 불리는 새로운 이니셔티브를 통해 소수의 주요 기술 파트너에게만 제공되었다.

Mythos Preview의 능력

시스템 카드는 내부 테스트에서 창작자가 의도한 범위를 훨씬 넘어서는 행동을 보인 모델에 대해 설명한다. 제한된 온라인 접속만 허용된 샌드박스 컴퓨터 터미널이 주어지자, 이 모델은 제한을 우회해 자유롭게 인터넷을 사용할 수 있는 방법을 찾아냈다. 이어서 사무실을 비운 연구자에게 메시지를 보내기도 했다.

카드에서는 이를 “우려스럽고 요청되지 않은” 행동이라 묘사하며, 모델이 자신이 사용한 익스플로잇의 세부 내용을 잘 알려지지 않은 여러 공개 웹사이트에 게시했다고 전했다.

별도의 테스트에서, 모델은 연구자들에게 보고해야 할 테스트 답안을 얻었다. 그러나 모델은 대신 해당 문제를 독자적으로 풀려고 시도했다.

내부 추론 로그에는 모델이 “최종 답변 제출이 지나치게 정확하지 않도록” 하길 원했다고 기록되어 있었는데, 이는 무슨 일이 일어났는지 숨기려는 시도로 보인다.

이 모델은 또 한 컴퓨터 시스템의 권한 설정 취약점을 악용해, 변경 사항이 git 기록에 나타나지 않도록 버전 관리 기록을 조작했다. 또 다른 사례에서는 내부 개발 자료를 외부에서 볼 수 있는 GitHub gist로 게시했는데, 카드에서는 이를 “내부 기술 자료를 무모하게 유출한 행위”라고 규정했다.

카드에 따르면 이러한 사건은 전체 상호작용 중 0.001% 미만에서만 발생했다.

Also Read: Ethereum Eyed For Euro Stablecoin Settlement Layer

Glasswing 파트너 프로그램

Anthropic은 이 모델을 완전히 봉인하는 대신, 널리 사용되는 소프트웨어에서 보안 취약점을 찾는 데 초점을 맞춘 제한 프로그램인 Glasswing에 투입하고 있다.

파트너사로는 Amazon Web Services, Apple, Google, JPMorganChase, Microsoft, NVIDIA 등이 포함된다.

Anthropic은 이 모델이 이미 심각도가 높은 취약점 수천 개를 찾아냈다고 말한다. 여기에는 모든 주요 운영체제와 웹 브라우저에서의 제로데이 취약점도 포함된다.

발견 사례 중 하나는 강력한 보안 강화로 유명한 시스템인 OpenBSD에서 27년 동안 존재해 온 버그였다. 이 결함은 공격자가 해당 시스템에 접속만 해도 원격으로 기기를 크래시시킬 수 있게 했다.

회사는 Glasswing 파트너를 위해 최대 1억 달러 상당의 Mythos Preview 사용 크레딧을 제공하겠다고 약속했으며, 프로그램에서 도출된 연구 결과를 공개하겠다고도 밝혔다.

Anthropic의 투명성 기록

강력한 모델의 공개를 보류하기로 한 결정은 과거와의 역사적 유사성을 떠올리게 한다. 현재 Anthropic CEO인 Dario Amodei는 2019년 OpenAI 재직 당시, GPT-2가 처음에는 지나치게 위험하다고 판단되어 공개가 미뤄졌을 때 그 자리에 있었다. GPT-2는 그해 말 결국 출시되었다.

Anthropic 자체의 최근 격리·통제 기록은 다소 들쭉날쭉했다.

Mythos 시스템 카드가 공개되기 몇 주 전, 모델의 존재를 암시하는 유출 정황이 나타났다. 이후 회사는 Claude Code의 소스 코드를 실수로 공개해, 앞선 유출 역시 실제일 수 있다는 주장에 힘을 보탰다.

Read Next: Bitcoin Hits $72.7K High On Iran Peace Optimism

면책 조항 및 위험 경고: 이 기사에서 제공되는 정보는 교육 및 정보 제공 목적으로만 제공되며 저자의 의견을 바탕으로 합니다. 이는 재정, 투자, 법적 또는 세무 조언을 구성하지 않습니다. 암호화폐 자산은 매우 변동성이 크고 높은 위험에 노출되어 있으며, 여기에는 투자금 전부 또는 상당 부분을 잃을 위험이 포함됩니다. 암호화폐 자산의 거래나 보유는 모든 투자자에게 적합하지 않을 수 있습니다. 이 기사에 표현된 견해는 저자(들)의 견해일 뿐이며 Yellow, 창립자 또는 임원의 공식적인 정책이나 입장을 나타내지 않습니다. 투자 결정을 내리기 전에 항상 자신만의 철저한 조사(D.Y.O.R.)를 수행하고 면허를 가진 금융 전문가와 상담하십시오.
관련 뉴스