Claude Mythos проти GPT-5.5: закритa модель Anthropic перемагає в 6 з 9 тестів

Claude Mythos проти GPT-5.5: закритa модель Anthropic перемагає в 6 з 9 тестів

OpenAI released GPT-5.5 у середу, але нові дані з бенчмарків показують, що Anthropic's gated Claude Mythos Preview все ще лідирує у шести з дев’яти безпосередньо порівнюваних тестів.

Результати бенчмарків GPT-5.5

GPT-5.5 arrived у ChatGPT та Codex 23 квітня, з ціною $5 за мільйон вхідних токенів і $30 за вихідні, що удвічі дорожче за його попередника.

Модель scored 82,7% на Terminal-Bench 2.0, випередивши Mythos на 0,7 пункта в єдиному бенчмарку, де вона має чітку перевагу.

Mythos, which Anthropic withheld from public release over cybersecurity concerns, лідирує в SWE-bench Pro з результатом 77,8% проти 58,6%.

Він також tops GPT-5.5 у Humanity's Last Exam без інструментів, набираючи 56,8% проти 41,4%. Закрита модель також випереджає на завданнях CyberGym, OSWorld-Verified та довгоконтекстних задачах GraphWalks.

Також читайте: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report

Важливість застережень аналітиків

Порівняння залишається неточним, оскільки жодна з лабораторій не тестувала моделі безпосередньо одна проти одної. OpenAI chose Claude Opus 4.7 як публічний орієнтир для порівняння, тоді як 245-сторінкова системна картка Anthropic зіставляла Mythos з GPT-5.4.

Також відрізняються й тестові середовища. OpenAI використовувала налаштування Codex CLI на Terminal-Bench, тоді як інфраструктура Anthropic Terminus-2 розігнала Mythos до 92,1% за правилами таймінгу Terminal-Bench 2.1.

Рішення Anthropic обмежити доступ до Mythos, оголошене 7 квітня, за повідомленнями, спричинило зустрічі з Єврокомісією та попередження від голови Банку Англії, що модель може радикально загострити кіберризики.

Читайте далі: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

Відмова від відповідальності та попередження про ризики: Інформація, надана в цій статті, призначена лише для освітніх та інформаційних цілей і базується на думці автора. Вона не є фінансовою, інвестиційною, правовою чи податковою консультацією. Криптоактиви є надзвичайно волатильними та піддаються високому ризику, включаючи ризик втрати всіх або значної частини ваших інвестицій. Торгівля або утримання криптоактивів може не підходити для всіх інвесторів. Думки, висловлені в цій статті, належать виключно автору(ам) і не представляють офіційну політику чи позицію Yellow, її засновників або керівників. Завжди проводьте власне ретельне дослідження (D.Y.O.R.) та консультуйтесь з ліцензованим фінансовим фахівцем перед прийняттям будь-яких інвестиційних рішень.
Схожі новини
Схожі дослідницькі статті
Схожі навчальні матеріали
Claude Mythos проти GPT-5.5: закритa модель Anthropic перемагає в 6 з 9 тестів | Yellow.com