Anthropic은 Mythos, its vulnerability-hunting AI 모델을 대중에게 공개할 계획이지만, 아직 존재하지 않는 안전장치를 먼저 구축한 뒤에만 가능하다고 밝혔다.
Key Points:
- Anthropic은 먼저 미국 및 동맹국 정부에 대한 접근을 확대한 뒤, Mythos급 모델을 광범위하게 공개할 계획이다.
- 회사는 자사 포함 어떤 업체도 악용을 막을 만큼 충분히 강력한 안전장치를 아직 만들지 못했다고 인정했다.
- Mythos는 1,000개 오픈소스 프로젝트에서 2만3,000건이 넘는 문제를 찾아냈으며, 이 중 6,202건은 높음 또는 심각 수준으로 분류됐다.
Anthropic Mythos 공개 계획
Anthropic은 제한적 접근 보안 프로그램인 Project Glasswing 업데이트에서 이 같은 계획을 confirmed했으며, 별도의 보고서는 구체적인 일정이 여전히 불확실하다고 짚었다.
회사는 먼저 미국 및 동맹국 정부와 협력해 프로그램을 확대하고, 이후 가까운 시점에 “Mythos급 모델(Mythos-class models)”의 더 넓은 공개를 추진하겠다고 밝혔다.
Anthropic은 위험성에 대해 돌려 말하지 않았다. 어느 회사도, 그리고 자사 역시도 모델이 악용되어 심각한 피해를 초래하는 것을 막을 만큼 충분히 강력한 안전장치를 갖추지 못했다고 stated했다.
그럼에도 불구하고 회사는 비슷한 도구들이 빠르게 확산될 것으로 보고 있으며, Mythos 수준의 모델이 6~12개월 안에 널리 사용 가능해질 것이라고 예상한다.
Mythos는 4월에 debuted했다. Anthropic에 따르면, 테스트에서 기존 Claude 모델이 거의 0%에 그친 것과 달리 Mythos는 72.4%의 비율로 실제 동작하는 익스플로잇을 만들어냈다.
Also Read: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks
Mythos의 취약점 발견 사례
공개 이후 이 모델은 1,000개가 넘는 오픈소스 프로젝트를 스캔하여 surfaced 23,019 issues를 찾아냈고, 이 중 6,202건은 심각도 ‘높음’ 혹은 ‘치명적’으로 평가되었다.
그중 특히 눈에 띄는 결과도 있었다. Mythos는 수십억 대 장치에서 사용되는 wolfSSL 암호 라이브러리에서 취약점을 발견했는데, 이를 악용하면 공격자가 인증서를 위조해 은행이나 이메일 제공업체를 사칭할 수 있었다. 이 문제는 현재 패치가 이뤄졌다.
쏟아지는 보고서는 이를 수정해야 할 인력에게 큰 부담을 주고 있다. 오픈소스 유지관리자들은 보고량이 감당 가능한 수준을 넘어섰다며, Anthropic에게 공개 속도를 늦춰 달라고 요청했다.
연구자들은 더 근본적인 불균형을 지적한다. Anthropic은 이제 버그를 찾는 일이 고치는 것보다 훨씬 쉬워졌다고 주장하며, 유지관리자들이 적체된 문제를 분류·우선순위화할 수 있도록 오픈소스 보안 재단(Open Source Security Foundation)의 Alpha-Omega 프로젝트와 partnered했다고 밝혔다.
Claude Mythos 시스템 카드(system card)는 장기적으로는 AI가 방어자에게 유리하게 작용할 것으로 예상하지만, 당분간은 공격자가 우위를 점할 수 있다고 Anthropic은 인정한다.
Mythos was first revealed됐을 때, Anthropic은 애플, 마이크로소프트, 구글을 포함한 50개가 넘는 조직에 약 1억 달러 규모의 사용 크레딧과 함께 접근 권한을 제공했지만, 소프트웨어 취약점을 무기화할 위험성을 이유로 대중에게는 모델을 공개하지 않았다.
Read Next: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High





