Claude Opus 4.8, 인텔리전스 지수 1위…해킹 분야에선 Mythos가 압도

Anthropic released its newest model, Claude Opus 4.8, 이번 주에 소폭 우위를 보이는 인텔리전스 벤치마크 성적을 내놓았지만, 소프트웨어 익스플로잇 작성 능력에서는 회사의 제한된 시스템인 Mythos에 뒤처진다.

핵심 포인트:

Claude Opus 4.8은 Artificial Analysis Intelligence Index에서 61.4점을 기록해, GPT-5.5의 60.2점을 간신히 앞섰다.

Anthropic의 내부 테스트에서 Mythos는 Firefox 대상의 70.8%에서 작동하는 익스플로잇을 만들어낸 반면, Opus 4.8은 8.8%에 그쳤다.

Mythos는 검증된 Project Glasswing 파트너에만 제한되며, Opus 4.8은 전작과 동일한 가격으로 제공된다.

Opus 4.8 벤치마크 우위

회사는 이번 주 Opus 4.8을 출시하며, 가격을 백만 입력 토큰당 5달러, 백만 출력 토큰당 25달러로 책정해 이전 모델 Opus 4.7과 동일한 수준을 유지했다.

독립 테스트 기관들은 이 모델이 이제 10개 평가를 종합한 Artificial Analysis Intelligence Index에서 61.4점을 기록해, GPT-5.5의 60.2점을 간발의 차로 앞선다고 보고했다. 안트로픽은 이번 업그레이드를 이름에서 느껴지는 세대 도약이라기보다는, 소폭의 점진적 개선으로 설명한다.

에이전트형 코딩 측면에서 Opus 4.8은 실제 대형 코드 저장소 안의 버그를 고치도록 요구하는 벤치마크 SWE-bench Pro에서 69.2%를 기록했고, GPT-5.5는 58.6%에 머물렀다.

대학원 수준의 과학 질문에서는 두 시스템이 모두 약 94%에 근접해 거의 비슷한 성능을 보였으며, Opus 4.8은 이전 세대가 뒤처졌던 폭넓은 추론 시험에서 근소하게 앞섰다.

Mythos는 가장 어려운 엔지니어링 작업에서 두 모델을 상회한다. 같은 코딩 벤치마크에서 77.8%를 기록했고, 코드와 스크린샷이 혼합된 작업에서는 더 큰 격차를 보였다. Anthropic은 Mythos를 일반 판매 대신 Project Glasswing 프로그램의 검증된 소수 파트너에게만 제공하며, 프리뷰 단계에서 백만 토큰당 입력 25달러, 출력 125달러를 받는데, 이는 Opus 요금의 5배 수준이다.

함께 읽기: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Mythos의 사이버 보안 우세

가장 큰 격차는 공격적 보안 분야에서 나타난다.

안전 장치를 해제하자 Mythos는 Anthropic 자체 평가에서 Firefox 대상의 70.8%에 대해 완전히 작동하는 익스플로잇을 생성한 반면, Opus 4.8은 8.8%만을 충족했다.

오픈소스 코드를 기반으로 한 별도의 테스트에서는, Opus 4.8이 목표의 61.5%에서 점수를 내지 못해, Mythos의 23.3% 미스율보다 두 배 이상 높았다.

Berkeley RDI가 주도한 공개 크로스‑모델 시험에서는 각 시스템을 자체 코딩 에이전트와 짝지어 898개의 실제 취약점을 다루도록 했고, 이때 Mythos는 157개의 작동 익스플로잇을 작성해 GPT-5.5의 120개를 앞질렀다.

다만 GPT-5.5는 커널 수준 익스플로잇에서는 아직 우위를 지켰고, 해당 좁은 영역에서 Mythos를 22대 12로 앞섰다. UK AI Security Institute도 전문 사이버 작업에서 GPT-5.5를 71.4%, Mythos를 68.6%로 평가해 소폭 앞선 것으로 나타났다.

Anthropic은 Mythos가 주요 운영체제와 모든 주요 웹 브라우저 전반에서, Firefox만 해도 수백 건에 달하는, 이전에 알려지지 않았던 취약점을 수천 개 발견한 뒤인 4월에 이 모델을 공개했다. 회사는 같은 익스플로잇 작성 능력이 방어자에게만이 아니라 공격자에게도 똑같이 도움이 될 수 있다는 우려 때문에, 이를 대중에게 공개하지 않기로 결정했다.

다음 읽기: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears