Claude Mythos проти GPT-5.5: закритa модель Anthropic перемагає в 6 з 9 тестів

OpenAI released GPT-5.5 у середу, але нові дані з бенчмарків показують, що Anthropic's gated Claude Mythos Preview все ще лідирує у шести з дев’яти безпосередньо порівнюваних тестів.

Результати бенчмарків GPT-5.5

GPT-5.5 arrived у ChatGPT та Codex 23 квітня, з ціною $5 за мільйон вхідних токенів і $30 за вихідні, що удвічі дорожче за його попередника.

Модель scored 82,7% на Terminal-Bench 2.0, випередивши Mythos на 0,7 пункта в єдиному бенчмарку, де вона має чітку перевагу.

Mythos, which Anthropic withheld from public release over cybersecurity concerns, лідирує в SWE-bench Pro з результатом 77,8% проти 58,6%.

Він також tops GPT-5.5 у Humanity's Last Exam без інструментів, набираючи 56,8% проти 41,4%. Закрита модель також випереджає на завданнях CyberGym, OSWorld-Verified та довгоконтекстних задачах GraphWalks.

Також читайте: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report

Важливість застережень аналітиків

Порівняння залишається неточним, оскільки жодна з лабораторій не тестувала моделі безпосередньо одна проти одної. OpenAI chose Claude Opus 4.7 як публічний орієнтир для порівняння, тоді як 245-сторінкова системна картка Anthropic зіставляла Mythos з GPT-5.4.

Також відрізняються й тестові середовища. OpenAI використовувала налаштування Codex CLI на Terminal-Bench, тоді як інфраструктура Anthropic Terminus-2 розігнала Mythos до 92,1% за правилами таймінгу Terminal-Bench 2.1.

Рішення Anthropic обмежити доступ до Mythos, оголошене 7 квітня, за повідомленнями, спричинило зустрічі з Єврокомісією та попередження від голови Банку Англії, що модель може радикально загострити кіберризики.

Читайте далі: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move