Claude Opus 4.8, 인텔리전스 지수 1위…소프트웨어 익스플로잇에선 Mythos가 압도

Claude Opus 4.8, 인텔리전스 지수 1위…소프트웨어 익스플로잇에선 Mythos가 압도

Anthropic released its newest model, Claude Opus 4.8, 이번 주에 인텔리전스 벤치마크에서 근소한 우위를 보였지만, 소프트웨어 익스플로잇 작성 능력에서는 회사의 제한된 Mythos 시스템에 뒤처졌다.

핵심 요점:

  • Claude Opus 4.8은 Artificial Analysis Intelligence Index에서 61.4점을 기록해 60.2점의 GPT-5.5를 간발의 차로 앞질렀다.
  • Anthropic의 내부 테스트에서 Mythos는 Firefox 타깃의 70.8%에서 동작하는 익스플로잇을 만들어낸 반면, Opus 4.8은 8.8%에 그쳤다.
  • Mythos는 엄선된 Project Glasswing 파트너로만 제한되며, Opus 4.8은 전작과 동일한 가격으로 제공된다.

Opus 4.8 벤치마크 우위

회사는 이번 주 Opus 4.8을 출시하며 가격을 백만 입력 토큰당 5달러, 백만 출력 토큰당 25달러로 책정해 이전 모델인 Opus 4.7과 동일한 요율을 유지했다.

독립 테스트 기관들은 이 모델이 이제 열 개 평가를 종합한 Artificial Analysis Intelligence Index에서 61.4점을 기록해, 60.2점의 GPT-5.5를 근소하게 앞섰다고 보고했다. Anthropic은 이번 업그레이드를 이름에서 느껴지는 세대 도약이 아니라, 소폭이지만 점진적인 개선이라고 평가한다.

에이전트 코딩 분야에서 Opus 4.8은 대규모 코드 저장소 안의 실제 버그 수정을 요구하는 벤치마크인 SWE-bench Pro에서 69.2%를 기록했으며, GPT-5.5는 58.6%에 그쳤다.

대학원 수준 과학 문제에서는 두 시스템이 모두 약 94%로 비슷한 성능을 보였고, Opus 4.8은 이전 세대가 뒤처졌던 광범위한 추론 시험에서 근소하게 앞섰다.

Mythos는 가장 까다로운 엔지니어링 작업에서 두 모델 모두를 상회하며, 같은 코딩 벤치마크에서 77.8%를 기록하고, 코드와 스크린샷을 함께 다루는 작업에서 더 넓은 격차를 보였다. Anthropic은 Mythos를 공개 판매 대신 Project Glasswing 프로그램의 엄선된 파트너에게만 제공하며, 프리뷰 버전에 대해 백만 토큰당 25달러와 125달러를 청구해, Opus보다 5배 비싸게 책정했다.

함께 읽기: Zcash Cools After A 6% Drop While Monero Steals The Spotlight

Mythos의 사이버 분야 지배력

가장 큰 격차는 공격적 보안 영역에서 드러난다.

안전장치를 해제한 상태에서 Mythos는 Anthropic의 자체 평가에서 Firefox 타깃의 70.8%에 대해 완전한 기능의 익스플로잇을 생성한 반면, Opus 4.8은 8.8%에 그쳤다.

오픈소스 코드를 기반으로 한 별도의 테스트에서는, Opus 4.8이 전체 타깃의 61.5%에서 점수를 내지 못해, Mythos가 기록한 23.3% 미스 비율의 두 배 이상을 기록했다.

Berkeley RDI가 주도한 공개 크로스 모델 실험에서는, 각 시스템을 자체 코딩 에이전트와 짝지어 898개의 실제 취약점을 대상으로 평가한 결과, Mythos가 157개의 동작하는 익스플로잇을 작성해 GPT-5.5의 120개를 앞질렀다.

여전히 커널 수준 익스플로잇에서는 GPT-5.5가 우위를 유지해, 그 좁은 영역에서 Mythos를 22대 12로 앞섰다. UK AI Security Institute는 전문가급 사이버 작업에서 GPT-5.5가 71.4%, Mythos가 68.6%로, GPT-5.5를 소폭 앞서는 것으로 평가했다.

Anthropic은 4월에 Mythos를 공개했는데, 이 모델이 주요 운영체제와 모든 주요 웹 브라우저 전반에서 수천 개의 이전에 알려지지 않았던 취약점을 발견한 뒤였다. 회사는 이 모델의 익스플로잇 작성 능력이 방어자를 돕는 만큼이나 공격자에게도 쉽게 악용될 수 있다는 우려 때문에, 대중에게는 공개하지 않기로 결정했다.

다음 읽기: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears

면책 조항 및 위험 경고: 이 기사에서 제공되는 정보는 교육 및 정보 제공 목적으로만 제공되며 저자의 의견을 바탕으로 합니다. 이는 재정, 투자, 법적 또는 세무 조언을 구성하지 않습니다. 암호화폐 자산은 매우 변동성이 크고 높은 위험에 노출되어 있으며, 여기에는 투자금 전부 또는 상당 부분을 잃을 위험이 포함됩니다. 암호화폐 자산의 거래나 보유는 모든 투자자에게 적합하지 않을 수 있습니다. 이 기사에 표현된 견해는 저자(들)의 견해일 뿐이며 Yellow, 창립자 또는 임원의 공식적인 정책이나 입장을 나타내지 않습니다. 투자 결정을 내리기 전에 항상 자신만의 철저한 조사(D.Y.O.R.)를 수행하고 면허를 가진 금융 전문가와 상담하십시오.