Claude Mythos AI, 50개 Cloudflare 코드 저장소에서 실동급 익스플로잇을 만들고도 데모는 거부

Cloudflare는 월요일, Anthropic's unreleased Mythos Preview 모델이 50개가 넘는 내부 저장소에서 버그를 체인으로 엮어 실제로 동작하는 익스플로잇을 만들었다고 확인했다.

Cloudflare Project Glasswing 결과

이번 공개는 Cloudflare 최고보안책임자(CSO) Grant Bourzikas의 블로그 글을 통해 전해졌다. 그는 자신의 팀이 Mythos Preview를 런타임, 엣지 데이터 경로, 프로토콜 스택에 걸친 프로덕션 코드를 대상으로 pointed 했다고 설명했다. Cloudflare는 Anthropic의 방어적 보안 파트너 초청 프로그램인 Project Glasswing에 합류한 상태다. Bourzikas는 이 모델을 두 가지 경쟁사에 없는 능력을 갖춘 “실질적인 진전”이라고 평가했다.

Mythos는 여러 개의 작은 공격 프리미티브를 체인으로 엮어 실동급 PoC 익스플로잇을 만들었다. 또한 스크래치 환경에서 익스플로잇 코드를 컴파일·실행한 뒤, 실행이 실패하면 가설을 revised 하는 방식으로 자체 수정했다.

블로그 글은 프리뷰 버전 모델의 거부 응답이 일관되지 않다는 점도 지적했다.

한 사례에서 Mythos는 특정 코드베이스에서 여러 메모리 버그를 확인하고도 데모용 익스플로잇 작성 요청을 거부했지만, 별도의 세션에서 같은 작업을 다른 방식으로 표현하자 요청에 응했다.

Also Read: Crypto Funds Bleed $1.07B As Iran Tensions End Six-Week Inflow Run

멀티 에이전트 하니스, 단일 스캐너를 능가

Cloudflare에 따르면, 하나의 일반적인 코딩 에이전트를 저장소에 붙이는 방식만으로는 취약점 연구가 제대로 이뤄지지 않았다. 대신 Bourzikas는 약 50개의 병렬 에이전트를 좁은 범위의 태스크에 배치하는 다단계 하니스를 구축했다. 이 파이프라인은 정찰, 취약점 탐색, 적대적 검증, 중복 제거, 도달 가능성 추적 단계를 거친다.

별도의 독립 에이전트가 각 발견 사항이 트리아지 큐에 들어가기 전에 이를 반박하려 시도해, C와 C++ 같은 메모리 비안전 언어 코드에서 흔한 오탐(false positive)을 줄인다. Anthropic은 Project Glasswing을 통해 모델 크레딧 1억 달러와 오픈소스 보안 단체에 대한 기부금 400만 달러를 committed 했다.

Mythos Preview는 일반에 공개되지 않을 예정이다.

크립토 스마트 컨트랙트, AI 익스플로잇 파도 직면

Cloudflare의 이번 결과는 온체인 손실이 커지는 시점에 나왔다. Verus-Ethereum bridge lost $11 million은 월요일 크로스체인 공격으로 1,100만 달러를 잃었고, 공격자는 수익을 5,402개의 Ether (ETH)로 스왑했다.

Anthropic 연구진은 이전에 AI 에이전트가 실시간으로 운영 중인 컨트랙트를 자율적으로 분석해 수익을 남기는 방식으로 익스플로잇할 수 있다는 점을 showed 한 바 있다. 한 테스트에서 모델은 2,849개의 배포된 컨트랙트를 스캔해, 3,476달러의 컴퓨트 비용으로 3,694달러 규모의 익스플로잇을 만들어 냈다.

CertiK는 5월 15일, 레거시 스마트 컨트랙트가 이제 AI 기반 공격 사냥 물결의 중심에 놓였다고 warned 했다. DeFi 프로토콜은 4월 약 20일 동안 6억 500만 달러 이상을 잃었는데, 여기에는 4월 19일 발생한 $293 million KelpDAO drain도 포함된다. 소셜 엔지니어링으로 인한 피해는 1분기 동안만 추가로 3억 600만 달러에 달했다.