Anthropic released its newest model, Claude Opus 4.8, 이번 주에 인텔리전스 벤치마크에서 근소한 우위를 보였지만, 소프트웨어 익스플로잇 작성 능력에서는 회사의 제한된 Mythos 시스템에 뒤처졌다.
핵심 요점:
- Claude Opus 4.8은 Artificial Analysis Intelligence Index에서 61.4점을 기록해 60.2점의 GPT-5.5를 간발의 차로 앞질렀다.
- Anthropic의 내부 테스트에서 Mythos는 Firefox 타깃의 70.8%에서 동작하는 익스플로잇을 만들어낸 반면, Opus 4.8은 8.8%에 그쳤다.
- Mythos는 엄선된 Project Glasswing 파트너로만 제한되며, Opus 4.8은 전작과 동일한 가격으로 제공된다.
Opus 4.8 벤치마크 우위
회사는 이번 주 Opus 4.8을 출시하며 가격을 백만 입력 토큰당 5달러, 백만 출력 토큰당 25달러로 책정해 이전 모델인 Opus 4.7과 동일한 요율을 유지했다.
독립 테스트 기관들은 이 모델이 이제 열 개 평가를 종합한 Artificial Analysis Intelligence Index에서 61.4점을 기록해, 60.2점의 GPT-5.5를 근소하게 앞섰다고 보고했다. Anthropic은 이번 업그레이드를 이름에서 느껴지는 세대 도약이 아니라, 소폭이지만 점진적인 개선이라고 평가한다.
에이전트 코딩 분야에서 Opus 4.8은 대규모 코드 저장소 안의 실제 버그 수정을 요구하는 벤치마크인 SWE-bench Pro에서 69.2%를 기록했으며, GPT-5.5는 58.6%에 그쳤다.
대학원 수준 과학 문제에서는 두 시스템이 모두 약 94%로 비슷한 성능을 보였고, Opus 4.8은 이전 세대가 뒤처졌던 광범위한 추론 시험에서 근소하게 앞섰다.
Mythos는 가장 까다로운 엔지니어링 작업에서 두 모델 모두를 상회하며, 같은 코딩 벤치마크에서 77.8%를 기록하고, 코드와 스크린샷을 함께 다루는 작업에서 더 넓은 격차를 보였다. Anthropic은 Mythos를 공개 판매 대신 Project Glasswing 프로그램의 엄선된 파트너에게만 제공하며, 프리뷰 버전에 대해 백만 토큰당 25달러와 125달러를 청구해, Opus보다 5배 비싸게 책정했다.
함께 읽기: Zcash Cools After A 6% Drop While Monero Steals The Spotlight
Mythos의 사이버 분야 지배력
가장 큰 격차는 공격적 보안 영역에서 드러난다.
안전장치를 해제한 상태에서 Mythos는 Anthropic의 자체 평가에서 Firefox 타깃의 70.8%에 대해 완전한 기능의 익스플로잇을 생성한 반면, Opus 4.8은 8.8%에 그쳤다.
오픈소스 코드를 기반으로 한 별도의 테스트에서는, Opus 4.8이 전체 타깃의 61.5%에서 점수를 내지 못해, Mythos가 기록한 23.3% 미스 비율의 두 배 이상을 기록했다.
Berkeley RDI가 주도한 공개 크로스 모델 실험에서는, 각 시스템을 자체 코딩 에이전트와 짝지어 898개의 실제 취약점을 대상으로 평가한 결과, Mythos가 157개의 동작하는 익스플로잇을 작성해 GPT-5.5의 120개를 앞질렀다.
여전히 커널 수준 익스플로잇에서는 GPT-5.5가 우위를 유지해, 그 좁은 영역에서 Mythos를 22대 12로 앞섰다. UK AI Security Institute는 전문가급 사이버 작업에서 GPT-5.5가 71.4%, Mythos가 68.6%로, GPT-5.5를 소폭 앞서는 것으로 평가했다.
Anthropic은 4월에 Mythos를 공개했는데, 이 모델이 주요 운영체제와 모든 주요 웹 브라우저 전반에서 수천 개의 이전에 알려지지 않았던 취약점을 발견한 뒤였다. 회사는 이 모델의 익스플로잇 작성 능력이 방어자를 돕는 만큼이나 공격자에게도 쉽게 악용될 수 있다는 우려 때문에, 대중에게는 공개하지 않기로 결정했다.
다음 읽기: Strategy Pulls $30M In Bitcoin Back, Cooling Sell-Off Fears





