OpenAI released GPT-5.5 у середу, але нові дані з бенчмарків показують, що Anthropic's gated Claude Mythos Preview все ще лідирує у шести з дев’яти безпосередньо порівнюваних тестів.
Результати бенчмарків GPT-5.5
GPT-5.5 arrived у ChatGPT та Codex 23 квітня, з ціною $5 за мільйон вхідних токенів і $30 за вихідні, що удвічі дорожче за його попередника.
Модель scored 82,7% на Terminal-Bench 2.0, випередивши Mythos на 0,7 пункта в єдиному бенчмарку, де вона має чітку перевагу.
Mythos, which Anthropic withheld from public release over cybersecurity concerns, лідирує в SWE-bench Pro з результатом 77,8% проти 58,6%.
Він також tops GPT-5.5 у Humanity's Last Exam без інструментів, набираючи 56,8% проти 41,4%. Закрита модель також випереджає на завданнях CyberGym, OSWorld-Verified та довгоконтекстних задачах GraphWalks.
Також читайте: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report
Важливість застережень аналітиків
Порівняння залишається неточним, оскільки жодна з лабораторій не тестувала моделі безпосередньо одна проти одної. OpenAI chose Claude Opus 4.7 як публічний орієнтир для порівняння, тоді як 245-сторінкова системна картка Anthropic зіставляла Mythos з GPT-5.4.
Також відрізняються й тестові середовища. OpenAI використовувала налаштування Codex CLI на Terminal-Bench, тоді як інфраструктура Anthropic Terminus-2 розігнала Mythos до 92,1% за правилами таймінгу Terminal-Bench 2.1.
Рішення Anthropic обмежити доступ до Mythos, оголошене 7 квітня, за повідомленнями, спричинило зустрічі з Єврокомісією та попередження від голови Банку Англії, що модель може радикально загострити кіберризики.
Читайте далі: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move





