Anthropic, 안전장치가 갖춰지면 Claude Mythos를 대중에 공개 예정… 12개월 내 가능성도

Anthropic은 아직 존재하지 않는 수준의 안전장치를 먼저 구축한 뒤에야 Mythos, its vulnerability-hunting AI 모델을 대중에 공개할 계획이라고 밝혔다.

핵심 요점:

Anthropic은 먼저 미국 및 동맹국 정부에 대한 접근을 확대한 뒤, Mythos급 모델을 폭넓게 공개할 계획이다.

회사는 자사 포함 어떤 업체도 악용을 막을 만큼 충분히 강력한 안전장치를 아직 만들지 못했다고 인정했다.

Mythos는 1,000개 오픈소스 프로젝트에서 23,000건이 넘는 이슈를 찾아냈으며, 이 중 6,202건은 높음 또는 치명적 결함으로 분류됐다.

Anthropic Mythos 공개 계획

Anthropic은 제한적 보안 프로그램인 Project Glasswing 업데이트에서 이 계획을 확인했으며, 별도의 보고서는 구체적인 일정은 불확실하다고 짚었다.

회사는 먼저 미국 및 동맹국 정부와 협력해 프로그램을 확대하겠다고 밝혔다. 그 뒤, 보다 광범위한 “Mythos급 모델(Mythos-class models)” 공개가 가까운 시일 내에 뒤따를 것이라고 했다.

Anthropic은 리스크에 대해 직설적으로 말했다. 발표에서 자사를 포함해 어떤 회사도 모델이 악용돼 심각한 피해를 일으키는 것을 막을 만큼 충분히 강력한 안전장치를 구축하지 못했다고 인정했다.

그럼에도 회사는 유사한 도구들이 빠르게 확산될 것으로 보고 있으며, Mythos 수준의 모델이 6~12개월 안에 널리 보급될 것이라고 예상한다.

Mythos는 4월에 처음 공개됐다. 테스트에서 Anthropic은 Mythos가 실제 작동하는 익스플로잇을 72.4%의 비율로 생성했으며, 이전 Claude 모델은 거의 0%에 그쳤다고 밝혔다.

Mythos의 취약점 발견 사례

공개 이후 이 모델은 1,000개가 넘는 오픈소스 프로젝트를 스캔해 총 23,019건의 이슈를 찾아냈고, 이 중 6,202건은 심각도 ‘높음’ 또는 ‘치명적’으로 분류됐다.

특히 주목받은 사례가 있다. 수십억 대의 기기에 사용되는 wolfSSL 암호화 라이브러리에서, 공격자가 인증서를 위조해 은행이나 이메일 제공자를 사칭할 수 있게 만드는 결함을 Mythos가 찾아낸 것이다. 이 취약점은 현재 패치됐다.

보고가 쏟아지면서 이를 고쳐야 하는 인력은 과부하를 겪고 있다. 오픈소스 유지관리자들은 보고량이 감당 가능한 범위를 넘어선다며, Anthropic에 공개 속도를 늦춰 달라고 요청했다.

연구자들은 더 근본적인 불균형을 지적한다. Anthropic은 이제 버그를 ‘찾는 것’이 ‘고치는 것’보다 훨씬 쉬워졌다고 주장하며, 유지관리자들이 누적된 이슈를 분류·처리할 수 있도록 오픈소스 보안 재단(Open Source Security Foundation)의 Alpha-Omega 프로젝트와 협력을 맺었다.

Claude Mythos 시스템 카드에는, 장기적으로는 AI가 방어자에게 유리하게 작용할 것이라는 전망이 담겨 있지만, Anthropic은 현재로서는 공격자가 우위를 점할 수 있다는 점을 인정하고 있다.

Mythos가 처음 공개됐을 때, Anthropic은 애플, 마이크로소프트, 구글을 포함한 50개가 넘는 조직에 약 1억 달러 규모의 사용 크레딧과 함께 접근 권한을 제공했고, 소프트웨어 취약점을 무기화할 수 있는 잠재력 때문에 일반 대중에게는 모델을 공개하지 않았다.

다음 읽기: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High