Новые прямые сравнения ставят GPT-5.6 Sol от OpenAI, который держит результат 88,8% в ведущем бенчмарке по программированию, против Claude Fable 5 от Anthropic с его показателем 80,3% по программной инженерии.
Ключевые моменты:
- GPT-5.6 Sol занимает первое место в Terminal-Bench 2.1 с 88,8%, а режим Ultra поднимает результат до 91,9%.
- Claude Fable 5 сохраняет самое большое опубликованное преимущество на SWE-Bench Pro — 80,3% против 58,6% у GPT-5.5.
- Sol остаётся в ограниченном, одобренном правительством превью, тогда как Fable 5 снова доступен по всему миру с 1 июля.
Заявления о бенчмарках GPT-5.6 Sol
OpenAI анонсировала превью семейства GPT-5.6 26 июня — это первый релиз после GPT-5.5 в апреле, разделивший линейку на три уровня с Sol в качестве флагмана.
Компания утверждает, что Sol достигает 88,8% в Terminal-Bench 2.1 — тесте для консольных код-агентов, которые планируют, итеративно дорабатывают и координируют инструменты. Ресурсоёмкий режим Ultra, который запускает согласованную работу подпроцессов-агентов для ускорения сложных задач, растягивает этот показатель до 91,9% — лучшего опубликованного результата в таблице Terminal-Bench.
Обозреватели, которые сравнили опубликованные таблицы, ставят Fable 5 на несколько пунктов позади Sol в том же терминальном тесте, хотя приводимые цифры варьируются от 83,4% до 84,3%. В пакете по безопасности ExploitBench Sol, по сообщениям, соответствует уровню класса Mythos, расходуя при этом примерно треть выходных токенов — такое снижение стоимости заметно при длительных запусках агентов.
Почти никто за пределами программы превью пока не может независимо проверить эти числа, на что указывают несколько обозревателей, хотя и признают сами «сырые» результаты.
Также читайте: OpenAI и Anthropic хотят IPO масштаба SpaceX, но Уолл-стрит может задохнуться
Преимущество Fable 5 в кодинге и цены
Fable 5 по‑прежнему владеет бенчмарком, который большинство обозревателей считает решающим для автономной разработки софта, и его преимущество там немалое. Он набирает 80,3% в SWE-Bench Pro, который измеряет сквозное исправление реальных задач GitHub, против 58,6% у более старого GPT-5.5, а OpenAI пока не опубликовала показатель GPT-5.6 в этом тесте.
Аналитики, которые обнаружили разрывы такого масштаба в области кодирования, рассуждения и знаний, сомневаются, что один инкрементальный релиз сможет полностью их закрыть.
По цене картина обратная: Sol, по сообщениям, стоит $5 за миллион входных токенов и $30 за выходные, то есть вдвое дешевле Fable 5 с его $10 и $50. Несколько обозревателей утверждали, что разумная конфигурация направляет терминально-управляемых агентов в сторону Sol (как только он станет шире доступен), а исправления на уровне репозиториев — в сторону Fable 5.
Наиболее резкую грань проводит доступ: Sol остаётся в ограниченном превью примерно для 20 партнёров, одобренных правительством, тогда как Fable 5 вернулся к глобальной доступности 1 июля с временным бонусом по использованию для платных подписчиков до 7 июля.
Июнь превратил доступ к передовым моделям в движущуюся цель для обеих лабораторий, и это «хлестание» контекста задаёт тон каждому обзору. Вашингтон отключил Fable 5 и его более мощного «брата» Mythos 5 12 июня, сославшись на серьёзные риски кибербезопасности, после того как исследователи Amazon обнаружили джейлбрейк, который генерировал эксплуатационный код. Министр торговли Говард Латник подтвердил отмену ограничений 30 июня после двухнедельной проверки — за несколько дней до того, как Mythos 5 тихо вернулся примерно к 100 проверенным американским организациям.
Читайте далее: Почему ETH всё ещё слаб, хотя стейкинг Ethereum бьёт рекорды?





