최신 정면 대결 리뷰들은 대표적인 코딩 벤치마크에서 88.8% 점수를 기록한 OpenAI의 GPT-5.6 Sol을, 80.3% 소프트웨어 엔지니어링 점수를 보유한 Anthropic의 Claude Fable 5와 맞붙게 한다.
핵심 포인트:
- GPT-5.6 Sol은 Terminal-Bench 2.1에서 88.8%로 1위를 기록하며, Ultra 모드는 점수를 91.9%까지 끌어올린다.
- Claude Fable 5는 SWE-Bench Pro에서 80.3%로 가장 넓은 공개 리드를 유지하며, GPT-5.5는 58.6%에 그친다.
- Sol은 여전히 정부 승인 제한 프리뷰 상태인 반면, Fable 5는 7월 1일 전 세계적 가용 상태로 복귀했다.
GPT-5.6 Sol 벤치마크 주장
OpenAI는 4월 GPT-5.5 이후 첫 릴리스로서, 6월 26일 GPT-5.6 패밀리를 프리뷰하며 제품군을 세 개 티어로 나누고 Sol을 플래그십으로 내세웠다.
회사에 따르면 Sol은 Terminal-Bench 2.1에서 88.8%에 도달한다. 이 테스트는 계획 수립, 반복, 도구 조정을 수행하는 커맨드라인 코딩 에이전트를 측정한다. 복잡한 작업을 가속하기 위해 조정된 서브에이전트를 가동하는 연산 집약적 Ultra 모드는 이 수치를 91.9%까지 늘려, Terminal-Bench 순위표에서 최고 공개 기록을 세운다.
공개된 차트를 비교한 리뷰어들은 같은 터미널 테스트에서 Fable 5가 Sol보다 수 포인트 뒤처진다고 본다. 다만 인용 수치는 83.4%에서 84.3% 사이로 엇갈린다. ExploitBench 보안 테스트 모음에서는, Sol이 출력 토큰을 약 3분의 1만 쓰면서도 Mythos급 성능에 근접하는 것으로 전해진다. 이는 장시간 에이전트 실행에서 의미 있는 비용 압축이다.
프리뷰 외부에서는 거의 아무도 이 수치를 독립적으로 검증하지 못하고 있으며, 여러 리뷰어가 원시 점수를 인정하면서도 이 점을 주의점으로 강조했다.
관련 기사: OpenAI와 Anthropic은 SpaceX급 IPO를 원하지만, 월스트리트는 부담스러워할 수 있다
Fable 5의 코딩 우위와 가격
Fable 5는 여전히 자율 소프트웨어 작업을 위해 대부분의 리뷰어가 결정적이라 여기는 벤치마크에서 선두를 지키고 있으며, 그 격차도 작지 않다. 실제 GitHub 이슈의 엔드 투 엔드 수정 능력을 측정하는 SWE-Bench Pro에서 80.3%를 기록한 반면, 구형 GPT-5.5는 58.6%에 그친다. OpenAI는 여기에 대한 GPT-5.6 수치를 아직 공개하지 않았다.
코딩, 추론, 지식 테스트 전반에서 이 정도의 격차를 발견한 애널리스트들은, 단일 점진적 릴리스만으로 이 차이를 완전히 메우기는 어렵다고 본다.
가격은 반대로 작용한다. Sol은 백만 개 입력 토큰당 5달러, 출력 토큰당 30달러로 책정된 것으로 알려져 있는데, 이는 Fable 5의 10달러, 50달러의 절반 수준이다. 여러 리뷰어들은, Sol이 공개된 이후에는 터미널 기반 에이전트는 Sol로, 저장소 단위 수정 작업은 Fable 5로 라우팅하는 구성이 합리적이라고 주장했다.
접근성에서는 경계가 가장 뚜렷하다. Sol은 여전히 약 20개 정부 승인 파트너를 대상으로만 제한 프리뷰를 유지하는 반면, Fable 5는 7월 1일 유료 구독자를 위한 7월 7일까지의 한시적 사용 보너스와 함께 전 세계 서비스로 복귀했다.
6월은 두 연구소 모두에게 프런티어 모델 접근성을 끊임없이 바뀌는 목표물로 만들었고, 이런 롤러코스터가 모든 리뷰의 전제를 이룬다. 워싱턴은 Amazon 연구원들이 익스플로잇 코드를 생성하는 탈옥 기법을 발견한 뒤, 심각한 사이버보안 위험을 이유로 6월 12일 Fable 5와 더 강력한 형제 모델 Mythos 5를 오프라인으로 강제 전환했다. 상무장관 Howard Lutnick은 2주간의 검토 끝에, Mythos 5가 약 100개 미국 검증 기관에 조용히 복귀한 지 며칠 뒤인 6월 30일 제재 해제를 확인했다.





