OpenAI released GPT-5.5 в среду, но свежие данные бенчмарков показывают, что Anthropic's gated Claude Mythos Preview по‑прежнему лидирует в шести из девяти напрямую сопоставимых тестов.
Результаты бенчмарков GPT-5.5
GPT-5.5 arrived в ChatGPT и Codex 23 апреля по цене $5 за миллион входных токенов и $30 за миллион выходных токенов — вдвое дороже предшественника.
Модель scored 82,7% на Terminal-Bench 2.0, опередив Mythos на 0,7 пункта — это единственный бенчмарк, где она явно выигрывает.
Mythos, which Anthropic withheld from public release over cybersecurity concerns лидирует на SWE-bench Pro с результатом 77,8% против 58,6%.
Он также tops GPT-5.5 в тесте Humanity's Last Exam без инструментов, набирая 56,8% против 41,4%. Закрытая модель также лидирует на задачах CyberGym, OSWorld-Verified и в задачах с длинным контекстом GraphWalks.
Также читайте: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report
Важность оговорок аналитиков
Сравнение остаётся неточным, поскольку ни одна из лабораторий не прогнала модели в прямом сравнительном бенчмарке. OpenAI chose Claude Opus 4.7 в качестве публичного ориентира, тогда как 245‑страничная системная карта Anthropic сравнивала Mythos с GPT-5.4.
Также расходятся тестовые окружения. OpenAI использовала настройку Codex CLI на Terminal-Bench, в то время как каркас Terminus-2 от Anthropic разогнал Mythos до 92,1% по правилам тайминга Terminal-Bench 2.1.
Решение Anthropic ограничить доступ к Mythos, объявленное 7 апреля, якобы спровоцировало встречи с Еврокомиссией и предупреждение от главы Банка Англии о том, что модель может радикально изменить ландшафт киберрисков.
Читайте далее: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move






