Claude Mythos AI, 코드 감사에서 경쟁사 앞서지만 5배 높은 가격이 발목

Claude Mythos AI, 코드 감사에서 경쟁사 앞서지만 5배 높은 가격이 발목

Anthropic's Mythos AI model는 소프트웨어 취약점 탐지에서 경쟁 시스템들을 앞서지만, 새로운 독립 벤치마크는 상대적으로 약한 판단력과 높은 운영 비용을 드러냈다.

Mythos 프리뷰, 소스 코드 감사에서 선두

공격형 보안 기업 XBOW는 이러한 핵심 주장을 확인했다. 이 기업은 10명의 전문가 팀을 꾸려 다양한 벤치마크, 워크플로, 통합 시나리오 전반에서 모델을 평가했다.

XBOW는 Mythos 프리뷰가 “공급자를 불문하고 기존 모든 모델 대비 의미 있는 도약을 보여준다”고 밝혔다. 테스트팀은 알려진 취약점을 가진 동결된 오픈소스 애플리케이션들을 대상으로 모델을 실행했다.

Mythos는 Opus 4.6과 비교해 거짓 음성(놓치는 취약점)을 42% 줄였고, 소스 코드 접근 권한이 주어지자 감소 폭은 55%까지 확대됐다고 The Decoder가 보도했다. 이 모델은 라이브 환경과 소스 코드를 함께 제공했을 때 특히 뛰어난 성능을 보였으며, 소스 코드만 주어졌을 때는 상대적으로 일관성이 떨어졌다.

Also Read: XRP ETFs Hit Record $1.39B But Token Loses 4th Spot To BNB

비용 이슈가 Anthropic의 우위에 찬물

Anthropic은 Mythos 프리뷰가 이미 시장에서 가장 비싼 축에 속하는 Opus 모델보다 대략 5배가량 비쌀 것이라고 밝힌 바 있다. 이런 프리미엄 가격 때문에 XBOW는 더 저렴한 경쟁 모델에 더 긴 실행 시간을 주면 Mythos를 따라잡을 수 있는지를 검증했다.

결과는 긍정적이었다. 웹 취약점 탐지를 위한 토큰 예산을 동일하게 맞춘 조건에서 Mythos는 Opus 4.6보다는 우수했지만, XBOW가 누락률 10%로 기록한 OpenAI의 GPT-5.5에는 뒤처졌다. XBOW는 Mythos가 정확도만을 목표로 할 경우 “그다지 비효율적이지는 않다”고 평가했지만, 비용을 감안해 정규화하면 최고 성능 모델이라고 보기는 어렵다고 덧붙였다.

이 회사는 이제 하나의 모델에 의존하기보다는 여러 모델을 혼합해 사용하는 방식을 권고하고 있다.

맥락 속에서 본 Mythos AI 성능

Mythos는 혼합된 판단력을 보였다. 이전 세대보다 거짓 양성(잘못 탐지한 취약점)을 거부하는 능력은 개선됐지만, 증거가 자체 형식 기준을 충족하지 못하면 실제 취약점까지 버리는 경우도 있었다. 리버스 엔지니어링과 네이티브 코드 분석은 가장 뛰어난 기술 중 하나로 꼽혔으며, 다른 시스템들이 찾아낸 결과를 선별·분류하는 능력도 보여줬다.

Anthropic first unveiled Mythos in early April 당시, 약 50개 파트너에만 접근을 제한하며 이번 출시를 AI 사이버 역량의 단계적 도약으로 규정했다. 이후 영국 AI 보안 연구소(U.K. AI Security Institute)는 Mythos와 GPT-5.5 모두가 자사 가속 예측을 “상당 폭으로 초과했다”고 밝혔다. 이 기관은 현재 사이버 역량이 4.7개월마다 두 배로 늘어난다고 추정하는데, 이는 2025년 11월에 제시했던 8개월 주기 전망에서 크게 낮아진 수치다.

Read Next: Hyperliquid Rejects Wall Street's Manipulation Claims As HYPE Drops 14%

면책 조항 및 위험 경고: 이 기사에서 제공되는 정보는 교육 및 정보 제공 목적으로만 제공되며 저자의 의견을 바탕으로 합니다. 이는 재정, 투자, 법적 또는 세무 조언을 구성하지 않습니다. 암호화폐 자산은 매우 변동성이 크고 높은 위험에 노출되어 있으며, 여기에는 투자금 전부 또는 상당 부분을 잃을 위험이 포함됩니다. 암호화폐 자산의 거래나 보유는 모든 투자자에게 적합하지 않을 수 있습니다. 이 기사에 표현된 견해는 저자(들)의 견해일 뿐이며 Yellow, 창립자 또는 임원의 공식적인 정책이나 입장을 나타내지 않습니다. 투자 결정을 내리기 전에 항상 자신만의 철저한 조사(D.Y.O.R.)를 수행하고 면허를 가진 금융 전문가와 상담하십시오.
Claude Mythos AI, 코드 감사에서 경쟁사 앞서지만 5배 높은 가격이 발목 | Yellow.com