Claude Mythos AI, 코드 감사에서는 경쟁사 앞서지만 5배 가격으로 경쟁력 제한

Anthropic's Mythos AI model는 소프트웨어 취약점 탐지에서 경쟁 시스템들을 앞서지만, 새로운 독립 벤치마크에서는 판단력의 약점과 높은 운영 비용이 드러났다.

Mythos 프리뷰, 소스 코드 감사에서 선두

공격형 보안업체 XBOW는 이 대표 주장에 대해 confirmed했다. 이 업체는 10명의 전문가 팀을 꾸려 벤치마크, 워크플로, 통합 환경 전반에서 모델을 평가했다.

XBOW는 Mythos 프리뷰가 “제공사와 무관하게 기존 모든 모델을 확실히 상회한다”고 밝혔다. 테스터들은 알려진 취약점이 존재하는 동결된 오픈소스 애플리케이션을 대상으로 모델을 실행했다.

Mythos는 Opus 4.6과 비교해 거짓 음성 비율을 42% 줄였고, 소스 코드 접근 권한을 추가로 부여하자 이 감소폭은 55%까지 확대됐다고 The Decoder가 reported했다. 이 모델은 라이브 테스트와 소스 코드를 함께 제공하는 환경에서 특히 뛰어났다. 반면 소스 코드만 주어졌을 때는 성능이 상대적으로 들쭉날쭉했다.

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

높은 비용이 Anthropic의 우위를 제약

Anthropic은 Mythos 프리뷰 가격이 이미 시장에서 가장 비싼 축에 속하는 Opus 모델보다 약 5배가량 더 비쌀 것이라고 밝혔다. 이 높은 프리미엄 때문에 XBOW는 더 긴 실행 시간을 부여하면 저렴한 경쟁 모델이 Mythos를 따라잡을 수 있는지 테스트했다.

결과는 “그렇다”였다. 웹 취약점 탐지용 토큰 예산을 고정했을 때 Mythos는 Opus 4.6보다는 앞섰지만, XBOW가 미탐률 10%로 recorded한 OpenAI's GPT-5.5에는 뒤처졌다. XBOW는 정확도를 목표로 할 경우 이 모델이 “그다지 비효율적이지는 않다”고 평가했지만, 비용을 보정해 비교하면 더는 최고 수준이라 보긴 어렵다고 덧붙였다.

이에 따라 이 업체는 이제 단일 모델에 의존하기보다 여러 모델을 혼합해 사용하는 방식을 권고하고 있다.

맥락 속 Mythos AI 성능

Mythos는 혼재된 판단 능력을 보였다. 이전 모델보다 거짓 양성을 거부하는 능력은 개선됐지만, 증거가 자체적인 형식 기준에 못 미칠 경우 실제 취약점까지 버리는 경우도 있었다. 리버스 엔지니어링과 네이티브 코드 분석은 이 모델의 가장 뛰어난 역량으로 꼽혔으며, 경쟁 시스템이 발견한 결과를 분류·우선순위화할 수 있는 능력도 보여줬다.

Anthropic first unveiled Mythos in early April 당시 이 회사는 약 50개 파트너에게만 접근을 제한하면서, 이번 출시를 AI 사이버 역량의 단계적 도약으로 규정했다. 이후 영국 AI 보안 연구소는 Mythos와 GPT-5.5가 모두 자사의 가속 전망을 “상당히 상회했다”고 밝혔다. 이 기관은 현재 사이버 역량이 약 4.7개월마다 두 배로 증가한다고 추정하고 있으며, 이는 2025년 11월에 제시했던 8개월 주기 추정치보다 크게 단축된 수치다.