OpenAI выпускает GPT-5.5, опережая Opus 4.7 в агентных задачах и 14 бенчмарках

OpenAI выпустила GPT-5.5 23 апреля, позиционируя модель с кодовым названием «Spud» как свою самую точную систему для автономной многошаговой работы.

Агентный упор в программировании GPT-5.5

Релиз lands состоялся ровно через неделю после того, как Anthropic pushed Claude Opus 4.7 стала общедоступной, что, по данным TechCrunch и Fortune, создало прямое соперничество в сфере агентных рабочих нагрузок.

GPT-5.5 создан для планирования, запуска инструментов, самопроверки результатов и итераций без постоянных подсказок.

Президент Грег Брокман назвал её «новым классом интеллекта» в беседе с журналистами, обозначив как шаг к «более агентным и интуитивным вычислениям».

Модель появляется в ChatGPT Plus, Pro, Business и Enterprise; также доступен более мощный вариант Pro. Цены API начинаются от $5 за миллион входных токенов и $30 за миллион выходных токенов при оконтексте в один миллион токенов.

Also Read: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

Разрыв в бенчмарках с Opus 4.7

По данным самой OpenAI, которые VentureBeat flagged как передовой уровень на 14 оценках, GPT-5.5 набирает 82,7% в Terminal-Bench 2.0, заметно опережая 69,4% у Opus 4.7.

В тесте FrontierMath уровней 1–3 новая модель показала 51,7% против 43,8% у флагмана Anthropic.

В задачах компьютерного использования разрыв меньше: GPT-5.5 набирает 78,7% в OSWorld-Verified против 78,0% у Opus 4.7, хотя GPT-5.5 Pro значительно опережает в браузинге — 90,1% против 79,3%.

Обозреватели по-прежнему считают, что Opus 4.7 сильнее в исследовательском письме и точнее следует инструкциям, а также обладает более высоким разрешением зрения — около 3,75 мегапикселя.

Темп выпусков продолжает tightening. GPT-5.5 вышла через шесть недель после GPT-5.4. Anthropic представила Opus 4.6 в феврале перед Opus 4.7, а Google удерживает Gemini 3.1 Pro в том же корпоративном сегменте.