Claude Mythos против GPT-5.5: закрытая модель Anthropic выигрывает 6 из 9 тестов

OpenAI released GPT-5.5 в среду, но свежие данные бенчмарков показывают, что Anthropic's gated Claude Mythos Preview по‑прежнему лидирует в шести из девяти напрямую сопоставимых тестов.

Результаты бенчмарков GPT-5.5

GPT-5.5 arrived в ChatGPT и Codex 23 апреля по цене $5 за миллион входных токенов и $30 за миллион выходных токенов — вдвое дороже предшественника.

Модель scored 82,7% на Terminal-Bench 2.0, опередив Mythos на 0,7 пункта — это единственный бенчмарк, где она явно выигрывает.

Mythos, which Anthropic withheld from public release over cybersecurity concerns лидирует на SWE-bench Pro с результатом 77,8% против 58,6%.

Он также tops GPT-5.5 в тесте Humanity's Last Exam без инструментов, набирая 56,8% против 41,4%. Закрытая модель также лидирует на задачах CyberGym, OSWorld-Verified и в задачах с длинным контекстом GraphWalks.

Также читайте: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report

Важность оговорок аналитиков

Сравнение остаётся неточным, поскольку ни одна из лабораторий не прогнала модели в прямом сравнительном бенчмарке. OpenAI chose Claude Opus 4.7 в качестве публичного ориентира, тогда как 245‑страничная системная карта Anthropic сравнивала Mythos с GPT-5.4.

Также расходятся тестовые окружения. OpenAI использовала настройку Codex CLI на Terminal-Bench, в то время как каркас Terminus-2 от Anthropic разогнал Mythos до 92,1% по правилам тайминга Terminal-Bench 2.1.

Решение Anthropic ограничить доступ к Mythos, объявленное 7 апреля, якобы спровоцировало встречи с Еврокомиссией и предупреждение от главы Банка Англии о том, что модель может радикально изменить ландшафт киберрисков.

Читайте далее: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move