OpenAI, GPT-5.5 출시…에이전트 작업과 14개 벤치마크에서 Opus 4.7 능가

OpenAI는 4월 23일 GPT-5.5를 출시하며, 코드명 "Spud"인 이 모델을 자율적 다단계 작업에 가장 최적화된 시스템이라고 소개했다.

GPT-5.5 에이전트형 코딩 강화

이번 출시 소식은 Anthropic이 Claude Opus 4.7을 일반 공개한 지 정확히 일주일 뒤에 발표되었으며, TechCrunch와 Fortune 보도에 따르면 에이전트 워크로드를 둘러싼 정면 승부 구도를 형성하고 있다.

GPT-5.5는 계획 수립, 도구 실행, 자체 출력 검증, 반복 작업을 사용자의 지속적인 프롬프트 없이 수행하도록 설계됐다.

사장 Greg Brockman은 기자들과의 통화에서 이를 "새로운 종류의 지능"이라고 표현하며, "더 에이전트적이고 직관적인 컴퓨팅"을 향한 한 걸음으로 설명했다.

이 모델은 ChatGPT Plus, Pro, Business, Enterprise에 순차적으로 적용되며, 보다 강력한 Pro 버전도 함께 제공된다. API 가격은 100만 입력 토큰당 5달러, 100만 출력 토큰당 30달러부터이며, 컨텍스트 윈도는 100만 토큰이다.

참고 기사: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

Opus 4.7와의 벤치마크 격차

VentureBeat가 주목한 OpenAI 자체 수치에 따르면, GPT-5.5는 14개 평가에서 최첨단 성능을 기록했으며, Terminal-Bench 2.0에서 82.7%를 기록해 Opus 4.7의 69.4%를 크게 앞섰다.

FrontierMath 1~3단계에서는 새 모델이 51.7%를 기록한 반면, Anthropic 플래그십 모델은 43.8%였다.

컴퓨터 활용 평가에서는 격차가 다소 줄었으며, OSWorld-Verified에서 GPT-5.5가 78.7%, Opus 4.7이 78.0%를 기록했다. 다만 브라우징 성능에서는 GPT-5.5 Pro가 90.1%로, Opus 4.7의 79.3%를 크게 앞섰다.

리뷰어들은 여전히 Opus 4.7이 리서치 라이팅, 지시사항 준수 능력에서 더 뛰어나며, 약 3.75메가픽셀 수준의 더 높은 해상도의 비전 기능을 제공한다고 평가한다.

출시 주기는 계속해서 짧아지고 있다. GPT-5.5는 GPT-5.4가 나온 지 6주 만에 등장했다. Anthropic은 Opus 4.7에 앞서 2월에 Opus 4.6을 선보였고, Google은 Gemini 3.1 Pro를 동일한 엔터프라이즈 영역에서 유지하고 있다.

다음 기사: TRON Connects $85B USDT Network To LI.FI In Cross-Chain DeFi Push