Claude Mythos, 10번 중 6번 시도로 32단계 AISI 해킹 범위 해결

새로운 Anthropic's Claude Mythos Preview 체크포인트가 영국 정부의 사이버 공격 시뮬레이션 두 개를 모두 해결한 최초의 AI 모델이 되면서, 자율 해킹에 대한 새로운 의문을 불러일으키고 있다.

AISI, Mythos 돌파 성과 발표

영국 AI Security Institute는 수요일 발표한 보고서에서, 최신 Mythos 체크포인트가 32단계로 이루어진 기업 네트워크 공격 레인지인 "The Last Ones"를 10번 시도 중 6번 완료했다고 밝혔다. 이전 버전은 10번 중 3번 완료하는 데 그쳤다.

업데이트된 모델은 이전 어떤 모델도 통과하지 못했던 산업 제어 시스템 레인지 "Cooling Tower"도 10번 중 3번 해결했다.

경쟁사 OpenAI의 GPT-5.5 역시 같은 과제에서 시험을 받았다. 이 모델은 "The Last Ones"를 10번 중 3번 해결했지만, "Cooling Tower"는 완료하지 못했다.

AISI는 각 시도마다 1억 토큰의 연산 예산으로 레인지를 운영했으며, 성능이 해당 상한선에서도 계속 스케일링되는 양상을 보였다고 밝혔다. 이는 예산을 더 높이면 성공률이 더 오를 수 있음을 시사한다.

단축되는 ‘두 배 시간’

AISI는 한 모델이 자율적으로 80% 신뢰도로 완수할 수 있는 작업의 시간 지평선을 기준으로, 사이버 역량의 발전을 추적한다. 2025년 11월, 이 기관은 두 배 시간(능력이 두 배가 되는 데 걸리는 시간)을 8개월로 추정했다. 2026년 2월에는 이 수치가 4.7개월로 압축되었고, 이후 Mythos와 GPT-5.5는 모두 이 더 빠른 추세를 넘어섰다.

기관은 최신 결과가 새로운 가속 국면을 의미하는지, 아니면 일회성 도약에 그칠지에 대해서는 불확실하다고 인정했다.

사이버 레인지가 아닌 소프트웨어 작업을 기준으로 AI를 추적하는 비영리 연구단체 METR도 비슷한 약 4.2개월의 수치를 내놓은 바 있다. AISI는 이러한 수렴이, 이 추세가 특정 평가 세트의 특이 현상이 아니라 실제 역량 향상을 반영한다는 주장을 강화해 준다고 말했다.

연구소는 자신의 레인지에는 능동적인 방어자가 없다는 점을 강조했다. 따라서 이번 결과는 방어가 허술한 네트워크를 상대로 모델이 할 수 있는 일이지, 보안이 강한 엔터프라이즈 시스템을 상대로 한 성능은 아니라는 것이다.

왜 역량 도약이 중요한가

최신 Mythos 체크포인트는 새로운 모델 릴리즈와 함께 등장한 것이 아니다. AISI는 Anthropic이 지난달 보안 파트너십 프로그램인 Project Glasswing에 배포한 것과 같은 버전을 사용했으며, 그와 동일한 모델의 업데이트 빌드를 받은 뒤 평가를 진행했다.

연구소는 “주목할 만한 역량 도약이 항상 새로운 모델 릴리즈를 필요로 하는 것은 아니다”라고 적었다. 이는 방어자들이 모델 출시 주기에 맞춰 대비하면 된다는 기존 가정을 뒤흔든다.

Anthropic은 4월 7일 Mythos Preview를 소개하면서, 이 모델이 내부 테스트에서 주요 운영체제와 브라우저 전반에 걸친 제로데이 취약점을 찾아낸 뒤 보안 업계의 전환점이 될 것이라고 설명했다. 회사는 이러한 역량 때문에 더 광범위한 출시를 보류해 왔다고 밝혔으며, AISI도 4월 초 평가에서 Mythos를 이전 최전선 시스템들보다 한 단계 도약한 수준으로 지목했다.

다음 기사: Gemini Space Station Hit By Multiple Securities Fraud Claims After IPO