Claude Opus 4.8, 다수 코딩 테스트에서 Gemini·GPT 제쳐

Anthropic은 업그레이드된 모델 Claude Opus 4.8을 출시하며, 이 모델이 여러 코딩 벤치마크에서 OpenAI의 GPT-5.5와 Google의 Gemini 3.1 Pro를 능가한다고 주장했다.

핵심 포인트:

Anthropic은 5월 28일 Claude Opus 4.8을 출시했으며, 가격은 이전 4.7 버전과 동일하게 책정했다.

SWE-Bench Pro 및 기타 테스트에서 OpenAI의 GPT-5.5와 Google의 Gemini 3.1 Pro보다 높은 점수를 기록했다고 밝혔다.

개편된 빠른 모드와 동적 워크플로는 에이전틱 작업의 비용과 시간을 줄이는 것을 목표로 한다.

Claude Opus 4.8, 코딩 벤치마크에서 상위권 기록

회사는 목요일에 해당 모델을 공개했으며, 약 6주 전 배포된 Opus 4.7 버전을 기반으로 구축했다. Anthropic에 따르면 Opus 4.8은 SWE-Bench Pro 코딩 테스트에서 69.2%를 기록하며, 경쟁사들을 앞질렀고 여러 다른 지표에서도 더 높은 성능을 보였다. 또한 컴퓨터 활용, 지식 노동, 재무 분석 분야에서도 성능 향상을 보고했으며, Terminal-Bench 2.1 벤치마크에서는 74.2%를 기록했다고 밝혔다.

Anthropic은 이번 출시를 “더 정직한 모델”로 규정하며, 테스터들이 이 모델이 스스로의 불확실성을 표시하고 근거 없는 주장을 자제하는 경향이 있다고 전했다. 내부 검토에서는 Opus 4.7에 비해 코딩 결함을 놓칠 가능성이 약 4배 낮은 것으로 평가되었고, 사용자 자율성 존중 측면에서도 더 높은 점수를 받았다고 한다.

또한 읽어보기: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High

Anthropic의 비용 절감 전략이 중요한 이유

가격은 백만 개 입력 토큰당 5달러, 백만 개 출력 토큰당 25달러로 기존과 동일하게 유지됐다. 새로 손질된 빠른 모드는 이전 설정보다 약 150% 더 빠르게 동작하면서 비용은 3분의 1 수준으로 줄었다. Anthropic은 또한 수십만 줄에 이르는 코드 마이그레이션 작업을 위해 수백 개의 병렬 하위 에이전트를 생성하는 동적 워크플로의 리서치 프리뷰도 개방했다.

그럼에도 불구하고, 성능 향상은 점진적인 수준에 머무른다.

GPT-5.5는 여전히 한 가지 터미널 코딩 테스트에서 우위를 점하고 있으며, Anthropic 역시 이번 모델을 ‘획기적 돌파구’가 아닌 ‘완만한 진전’으로 평가했다. 이제 개발자들은 Messages API를 통해 작업 도중 Claude의 지시 사항을 수정할 수 있게 되었다. 더 저렴한 AI를 찾는 구매자들은 최상위 모델 간의 근소한 성능 격차보다 이러한 비용 통제 기능을 더 중시할 수 있다.

Anthropic 기업가치와 Mythos를 둘러싼 배경

이번 출시는 Anthropic이 공식 확인한 650억 달러 규모의 시리즈 H 라운드와 같은 날 이뤄졌다. 이 라운드는 9,650억 달러의 기업가치에서 진행되었으며, Altimeter Capital, Dragoneer, Greenoaks, Sequoia Capital이 주도했다. 이로써 설립 5년 차인 Anthropic은 OpenAI가 보고한 8,500억 달러를 넘어섰고, 연간 매출도 약 470억 달러 수준으로 끌어올렸다.

기업가치는 2월의 3,800억 달러에서 거의 세 배 가까이 뛰어올랐으며, IPO 이전 마지막 비상장 자금조달이 될 가능성이 제기된다. 회사는 사이버보안 작업을 위해 구축한 더 강력한 Mythos 모델을 안전성 우려로 인해 소수 조직에만 제한적으로 공개해 왔다. 이제 수 주 안에 모든 고객을 대상으로 Mythos급 시스템 접근을 확대할 계획이라고 밝혔다.

다음 읽기: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks