Anthropic은 업그레이드된 모델 Claude Opus 4.8을 출시하며, 이 모델이 여러 코딩 벤치마크에서 OpenAI의 GPT-5.5와 Google의 Gemini 3.1 Pro를 능가한다고 주장했다.
핵심 포인트:
- Anthropic은 5월 28일 Claude Opus 4.8을 출시했으며, 가격은 이전 4.7 버전과 동일하게 책정했다.
- SWE-Bench Pro 및 기타 테스트에서 OpenAI의 GPT-5.5와 Google의 Gemini 3.1 Pro보다 높은 점수를 기록했다고 밝혔다.
- 개편된 빠른 모드와 동적 워크플로는 에이전틱 작업의 비용과 시간을 줄이는 것을 목표로 한다.
Claude Opus 4.8, 코딩 벤치마크에서 상위권 기록
회사는 목요일에 해당 모델을 공개했으며, 약 6주 전 배포된 Opus 4.7 버전을 기반으로 구축했다. Anthropic에 따르면 Opus 4.8은 SWE-Bench Pro 코딩 테스트에서 69.2%를 기록하며, 경쟁사들을 앞질렀고 여러 다른 지표에서도 더 높은 성능을 보였다. 또한 컴퓨터 활용, 지식 노동, 재무 분석 분야에서도 성능 향상을 보고했으며, Terminal-Bench 2.1 벤치마크에서는 74.2%를 기록했다고 밝혔다.
Anthropic은 이번 출시를 “더 정직한 모델”로 규정하며, 테스터들이 이 모델이 스스로의 불확실성을 표시하고 근거 없는 주장을 자제하는 경향이 있다고 전했다. 내부 검토에서는 Opus 4.7에 비해 코딩 결함을 놓칠 가능성이 약 4배 낮은 것으로 평가되었고, 사용자 자율성 존중 측면에서도 더 높은 점수를 받았다고 한다.
또한 읽어보기: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High
Anthropic의 비용 절감 전략이 중요한 이유
가격은 백만 개 입력 토큰당 5달러, 백만 개 출력 토큰당 25달러로 기존과 동일하게 유지됐다. 새로 손질된 빠른 모드는 이전 설정보다 약 150% 더 빠르게 동작하면서 비용은 3분의 1 수준으로 줄었다. Anthropic은 또한 수십만 줄에 이르는 코드 마이그레이션 작업을 위해 수백 개의 병렬 하위 에이전트를 생성하는 동적 워크플로의 리서치 프리뷰도 개방했다.
그럼에도 불구하고, 성능 향상은 점진적인 수준에 머무른다.
GPT-5.5는 여전히 한 가지 터미널 코딩 테스트에서 우위를 점하고 있으며, Anthropic 역시 이번 모델을 ‘획기적 돌파구’가 아닌 ‘완만한 진전’으로 평가했다. 이제 개발자들은 Messages API를 통해 작업 도중 Claude의 지시 사항을 수정할 수 있게 되었다. 더 저렴한 AI를 찾는 구매자들은 최상위 모델 간의 근소한 성능 격차보다 이러한 비용 통제 기능을 더 중시할 수 있다.
Anthropic 기업가치와 Mythos를 둘러싼 배경
이번 출시는 Anthropic이 공식 확인한 650억 달러 규모의 시리즈 H 라운드와 같은 날 이뤄졌다. 이 라운드는 9,650억 달러의 기업가치에서 진행되었으며, Altimeter Capital, Dragoneer, Greenoaks, Sequoia Capital이 주도했다. 이로써 설립 5년 차인 Anthropic은 OpenAI가 보고한 8,500억 달러를 넘어섰고, 연간 매출도 약 470억 달러 수준으로 끌어올렸다.
기업가치는 2월의 3,800억 달러에서 거의 세 배 가까이 뛰어올랐으며, IPO 이전 마지막 비상장 자금조달이 될 가능성이 제기된다. 회사는 사이버보안 작업을 위해 구축한 더 강력한 Mythos 모델을 안전성 우려로 인해 소수 조직에만 제한적으로 공개해 왔다. 이제 수 주 안에 모든 고객을 대상으로 Mythos급 시스템 접근을 확대할 계획이라고 밝혔다.
다음 읽기: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks





