GPT-5.6 Sol vs Claude Fable 5: 코딩 벤치마크에서 갈린 승부

GPT-5.6 Sol vs Claude Fable 5: 코딩 벤치마크에서 갈린 승부

최신 정면 대결 리뷰에서, 대표적인 코딩 벤치마크에서 88.8% 점수를 기록한 OpenAI의 GPT-5.6 Sol과 소프트웨어 엔지니어링 지표 80.3%를 기록한 Anthropic의 Claude Fable 5가 맞붙었다.

핵심 포인트:

  • GPT-5.6 Sol은 Terminal-Bench 2.1에서 88.8%로 1위를 기록했고, Ultra 모드에서는 점수가 91.9%까지 올라간다.
  • Claude Fable 5는 SWE-Bench Pro에서 80.3%로 가장 넓은 공개 격차를 유지하고 있으며, GPT-5.5의 58.6% 대비 우위를 지킨다.
  • Sol은 여전히 정부 승인 제한 프리뷰에 머물고 있는 반면, Fable 5는 7월 1일 전 세계 서비스로 복귀했다.

GPT-5.6 Sol 벤치마크 주장

OpenAI는 6월 26일 GPT-5.5 이후 첫 릴리스로 GPT-5.6 패밀리를 미리 공개했으며, 라인업을 세 가지 티어로 나누고 Sol을 플래그십으로 내세웠다.

회사에 따르면 Sol은 계획·반복·도구 조정을 수행하는 커맨드라인 코딩 에이전트를 시험하는 Terminal-Bench 2.1에서 88.8%를 기록한다. 연산량이 큰 Ultra 모드는 복잡한 작업을 가속하기 위해 조정된 서브에이전트를 가동하며, 점수를 91.9%까지 끌어올리는데, 이는 Terminal-Bench 차트에서 공개된 최고 기록이다.

공개 차트를 비교한 리뷰어들은 동일한 터미널 테스트에서 Fable 5가 Sol보다 몇 포인트 뒤처진다고 평가하며, 인용 수치는 83.4%에서 84.3% 사이로 엇갈린다. 보안 벤치마크 ExploitBench에서는 Sol이 출력 토큰을 약 3분의 1만 사용하면서도 Mythos급 성능에 근접한 것으로 전해지며, 이는 긴 에이전트 실행에서 중요한 비용 압축으로 평가된다.

다만 프리뷰 밖에서는 거의 아무도 이 수치를 독립적으로 검증하지 못하고 있어, 여러 리뷰어들이 원시 점수를 인정하면서도 유의해야 할 전제조건으로 지적한다.

관련 기사: OpenAI And Anthropic Want SpaceX-Sized IPOs, But Wall Street May Choke

Fable 5의 코딩 우위와 가격

Fable 5는 여전히 대부분의 리뷰어들이 자율 소프트웨어 작업에 결정적이라고 보는 벤치마크에서 1위를 지키고 있으며, 그 격차도 적지 않다. 실제 GitHub 이슈의 엔드 투 엔드 수정 능력을 측정하는 SWE-Bench Pro에서 80.3%를 기록한 반면, 구형 GPT-5.5는 58.6%에 그치며, OpenAI는 아직 GPT-5.6의 해당 수치를 공개하지 않았다.

코딩·추론·지식 테스트 전반에서 이 정도 규모의 격차를 발견한 분석가들은 단일 점진적 릴리스만으로 이 차이를 완전히 좁히기는 어렵다고 본다.

가격은 반대로 움직인다. Sol은 입력 100만 토큰당 5달러, 출력 30달러로 책정된 것으로 알려져 있는데, 이는 Fable 5의 10달러와 50달러의 절반 수준이다. 여러 리뷰어들은, Sol이 일반 공개되면 터미널 기반 에이전트는 Sol로, 저장소 단위 수정 작업은 Fable 5로 라우팅하는 구성이 합리적이라고 주장했다.

접근성은 가장 뚜렷한 경계선을 긋는다. Sol은 여전히 정부 승인을 받은 약 20개 파트너에 한정된 프리뷰에 머무는 반면, Fable 5는 7월 1일 유료 가입자를 대상으로 7월 7일까지 한시적 사용 보너스를 제공하며 전 세계 서비스에 복귀했다.

6월은 두 연구소 모두에게 프런티어 모델 접근성을 계속 변동하는 목표물로 만들었고, 이런 롤러코스터가 모든 리뷰의 배경이 되고 있다. 워싱턴은 Amazon 연구원들이 익스플로잇 코드를 생성하는 탈옥 기법을 발견한 뒤 심각한 사이버 보안 위험을 이유로, 6월 12일 Fable 5와 더 강력한 형제 모델 Mythos 5를 오프라인으로 전환하라고 명령했다. 이후 상무장관 Howard Lutnick은 2주간의 검토 끝에 6월 30일 규제를 해제했다고 확인했으며, 그 며칠 전 Mythos 5는 조용히 약 100곳의 검증된 미국 기관에 다시 제공되기 시작했다.

다음 읽기: Why Is ETH Still Weak While Ethereum Staking Hits Record Highs?

면책 조항 및 위험 경고: 이 기사에서 제공되는 정보는 교육 및 정보 제공 목적으로만 제공되며 저자의 의견을 바탕으로 합니다. 이는 재정, 투자, 법적 또는 세무 조언을 구성하지 않습니다. 암호화폐 자산은 매우 변동성이 크고 높은 위험에 노출되어 있으며, 여기에는 투자금 전부 또는 상당 부분을 잃을 위험이 포함됩니다. 암호화폐 자산의 거래나 보유는 모든 투자자에게 적합하지 않을 수 있습니다. 이 기사에 표현된 견해는 저자(들)의 견해일 뿐이며 Yellow, 창립자 또는 임원의 공식적인 정책이나 입장을 나타내지 않습니다. 투자 결정을 내리기 전에 항상 자신만의 철저한 조사(D.Y.O.R.)를 수행하고 면허를 가진 금융 전문가와 상담하십시오.
GPT-5.6 Sol vs Claude Fable 5: 코딩 벤치마크에서 갈린 승부 | Yellow.com