GPT-5.6 Sol против Claude Fable 5: бенчмарки по коду показывают разделённую гонку

Alexey BondarevJul, 02 2026 7:38

#ИИ #OpenAI #ChatGPT #Anthropic #Клод Фейбл

GPT-5.6 Sol против Claude Fable 5: бенчмарки по коду показывают разделённую гонку

Новые прямые сравнения ставят GPT-5.6 Sol от OpenAI, который держит результат 88,8% в ведущем бенчмарке по программированию, против Claude Fable 5 от Anthropic с его показателем 80,3% по программной инженерии.

Ключевые моменты:

GPT-5.6 Sol занимает первое место в Terminal-Bench 2.1 с 88,8%, а режим Ultra поднимает результат до 91,9%.

Claude Fable 5 сохраняет самое большое опубликованное преимущество на SWE-Bench Pro — 80,3% против 58,6% у GPT-5.5.

Sol остаётся в ограниченном, одобренном правительством превью, тогда как Fable 5 снова доступен по всему миру с 1 июля.

Заявления о бенчмарках GPT-5.6 Sol

OpenAI анонсировала превью семейства GPT-5.6 26 июня — это первый релиз после GPT-5.5 в апреле, разделивший линейку на три уровня с Sol в качестве флагмана.

Компания утверждает, что Sol достигает 88,8% в Terminal-Bench 2.1 — тесте для консольных код-агентов, которые планируют, итеративно дорабатывают и координируют инструменты. Ресурсоёмкий режим Ultra, который запускает согласованную работу подпроцессов-агентов для ускорения сложных задач, растягивает этот показатель до 91,9% — лучшего опубликованного результата в таблице Terminal-Bench.

Обозреватели, которые сравнили опубликованные таблицы, ставят Fable 5 на несколько пунктов позади Sol в том же терминальном тесте, хотя приводимые цифры варьируются от 83,4% до 84,3%. В пакете по безопасности ExploitBench Sol, по сообщениям, соответствует уровню класса Mythos, расходуя при этом примерно треть выходных токенов — такое снижение стоимости заметно при длительных запусках агентов.

Почти никто за пределами программы превью пока не может независимо проверить эти числа, на что указывают несколько обозревателей, хотя и признают сами «сырые» результаты.

Также читайте: OpenAI и Anthropic хотят IPO масштаба SpaceX, но Уолл-стрит может задохнуться

Преимущество Fable 5 в кодинге и цены

Fable 5 по‑прежнему владеет бенчмарком, который большинство обозревателей считает решающим для автономной разработки софта, и его преимущество там немалое. Он набирает 80,3% в SWE-Bench Pro, который измеряет сквозное исправление реальных задач GitHub, против 58,6% у более старого GPT-5.5, а OpenAI пока не опубликовала показатель GPT-5.6 в этом тесте.

Аналитики, которые обнаружили разрывы такого масштаба в области кодирования, рассуждения и знаний, сомневаются, что один инкрементальный релиз сможет полностью их закрыть.

По цене картина обратная: Sol, по сообщениям, стоит $5 за миллион входных токенов и $30 за выходные, то есть вдвое дешевле Fable 5 с его $10 и $50. Несколько обозревателей утверждали, что разумная конфигурация направляет терминально-управляемых агентов в сторону Sol (как только он станет шире доступен), а исправления на уровне репозиториев — в сторону Fable 5.

Наиболее резкую грань проводит доступ: Sol остаётся в ограниченном превью примерно для 20 партнёров, одобренных правительством, тогда как Fable 5 вернулся к глобальной доступности 1 июля с временным бонусом по использованию для платных подписчиков до 7 июля.

Июнь превратил доступ к передовым моделям в движущуюся цель для обеих лабораторий, и это «хлестание» контекста задаёт тон каждому обзору. Вашингтон отключил Fable 5 и его более мощного «брата» Mythos 5 12 июня, сославшись на серьёзные риски кибербезопасности, после того как исследователи Amazon обнаружили джейлбрейк, который генерировал эксплуатационный код. Министр торговли Говард Латник подтвердил отмену ограничений 30 июня после двухнедельной проверки — за несколько дней до того, как Mythos 5 тихо вернулся примерно к 100 проверенным американским организациям.

Читайте далее: Почему ETH всё ещё слаб, хотя стейкинг Ethereum бьёт рекорды?

Отказ от ответственности и предупреждение о рисках: Информация, представленная в этой статье, предназначена только для образовательных и информационных целей и основана на мнении автора. Она не является финансовой, инвестиционной, юридической или налоговой консультацией. Криптоактивы крайне волатильны и подвержены высоким рискам, включая риск потери всех или значительной части ваших инвестиций. Торговля или владение криптоактивами может не подходить для всех инвесторов. Мнения, выраженные в этой статье, принадлежат исключительно автору(ам) и не представляют официальную политику или позицию Yellow, её основателей или руководителей. Всегда проводите собственное тщательное исследование (D.Y.O.R.) и консультируйтесь с лицензированным финансовым специалистом перед принятием любых инвестиционных решений.

Последние новости

Показать все новости

Foxconn снова набирает рабочих для выпуска iPhone 18 на фоне растущих ставок Apple на искусственный интеллект

36 минут назад

Foxconn резко нарастила набор персонала для выпуска iPhone 18 Pro, повышая выплаты и смещая фокус на топовые модели с Apple Intelligence.

Маск пообещал: Grok снимет «исторически точную» «Одиссею» к 2026 году

1 час назад

Маск обещает AI-экранизацию «Одиссеи» к концу 2026 года на базе Grok Imagine после затяжной критики версии Нолана и её кастинга.

Google расширяет Gemini до 40 приложений, а Samsung Fold 8 делает его агентным центром

2 часов назад

Gemini охватывает свыше 40 приложений и предустановлен на новых складных Samsung, добавляя полгода Google AI Pro.

Связанные Новости