Claude Mythos vs. GPT-5.5: 제한된 접근 Anthropic 모델, 9개 테스트 중 6개 승리

Claude Mythos vs. GPT-5.5: 제한된 접근 Anthropic 모델, 9개 테스트 중 6개 승리

OpenAI released GPT-5.5 on Wednesday, but fresh benchmark data shows Anthropic's gated Claude Mythos Preview still leads on six of nine directly comparable tests.

GPT-5.5 벤치마크 점수

GPT-5.5 arrived in ChatGPT and Codex on Apr. 23, priced at $5 per million input tokens and $30 for output, double the rate of its predecessor.

이 모델은 scored Terminal-Bench 2.0에서 82.7%를 기록하며, 이 벤치마크에서 유일하게 분명한 우위를 보인 GPT-5.5가 Mythos를 0.7포인트 차이로 앞섰다.

Mythos, which Anthropic withheld from public release over cybersecurity concerns, leads on SWE-bench Pro at 77.8% versus 58.6%.

또한 이 모델은 Humanity's Last Exam 무도구 설정에서 56.8% 대 41.4%로 GPT-5.5를 tops했다. 제한된 접근 모델은 CyberGym, OSWorld-Verified, 장문 문맥 GraphWalks 과제에서도 앞선다.

Also Read: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report

애널리스트들의 주의점도 중요하다

두 연구소 모두 모델을 서로 직접 맞대어 벤치마킹하지 않았기 때문에, 이번 비교는 여전히 정밀성이 떨어진다. OpenAI는 공개 비교 대상으로 Claude Opus 4.7을 chose했고, Anthropic의 245페이지짜리 시스템 카드는 Mythos를 GPT-5.4와 비교했다.

테스트 하니스도 다르다. OpenAI는 Terminal-Bench에서 Codex CLI 환경을 사용한 반면, Anthropic의 Terminus-2 스캐폴드는 Terminal-Bench 2.1 타이밍 규칙에서 Mythos를 92.1%까지 끌어올렸다.

Anthropic이 4월 7일 발표한 Mythos 제한 공개 결정은 유럽연합 집행위원회와의 회의를 촉발했고, 영란은행 총재는 이 모델이 사이버 리스크를 본격적으로 드러낼 수 있다는 경고를 내놓았다.

Read Next: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

면책 조항 및 위험 경고: 이 기사에서 제공되는 정보는 교육 및 정보 제공 목적으로만 제공되며 저자의 의견을 바탕으로 합니다. 이는 재정, 투자, 법적 또는 세무 조언을 구성하지 않습니다. 암호화폐 자산은 매우 변동성이 크고 높은 위험에 노출되어 있으며, 여기에는 투자금 전부 또는 상당 부분을 잃을 위험이 포함됩니다. 암호화폐 자산의 거래나 보유는 모든 투자자에게 적합하지 않을 수 있습니다. 이 기사에 표현된 견해는 저자(들)의 견해일 뿐이며 Yellow, 창립자 또는 임원의 공식적인 정책이나 입장을 나타내지 않습니다. 투자 결정을 내리기 전에 항상 자신만의 철저한 조사(D.Y.O.R.)를 수행하고 면허를 가진 금융 전문가와 상담하십시오.
Claude Mythos vs. GPT-5.5: 제한된 접근 Anthropic 모델, 9개 테스트 중 6개 승리 | Yellow.com