OpenAI released GPT-5.5 on Wednesday, but fresh benchmark data shows Anthropic's gated Claude Mythos Preview still leads on six of nine directly comparable tests.
GPT-5.5 벤치마크 점수
GPT-5.5 arrived in ChatGPT and Codex on Apr. 23, priced at $5 per million input tokens and $30 for output, double the rate of its predecessor.
이 모델은 scored Terminal-Bench 2.0에서 82.7%를 기록하며, 이 벤치마크에서 유일하게 분명한 우위를 보인 GPT-5.5가 Mythos를 0.7포인트 차이로 앞섰다.
Mythos, which Anthropic withheld from public release over cybersecurity concerns, leads on SWE-bench Pro at 77.8% versus 58.6%.
또한 이 모델은 Humanity's Last Exam 무도구 설정에서 56.8% 대 41.4%로 GPT-5.5를 tops했다. 제한된 접근 모델은 CyberGym, OSWorld-Verified, 장문 문맥 GraphWalks 과제에서도 앞선다.
Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report
애널리스트들의 주의점도 중요하다
두 연구소 모두 모델을 서로 직접 맞대어 벤치마킹하지 않았기 때문에, 이번 비교는 여전히 정밀성이 떨어진다. OpenAI는 공개 비교 대상으로 Claude Opus 4.7을 chose했고, Anthropic의 245페이지짜리 시스템 카드는 Mythos를 GPT-5.4와 비교했다.
테스트 하니스도 다르다. OpenAI는 Terminal-Bench에서 Codex CLI 환경을 사용한 반면, Anthropic의 Terminus-2 스캐폴드는 Terminal-Bench 2.1 타이밍 규칙에서 Mythos를 92.1%까지 끌어올렸다.
Anthropic이 4월 7일 발표한 Mythos 제한 공개 결정은 유럽연합 집행위원회와의 회의를 촉발했고, 영란은행 총재는 이 모델이 사이버 리스크를 본격적으로 드러낼 수 있다는 경고를 내놓았다.
Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move






