Свежие сравнения лицом к лицу противопоставляют OpenAI’s GPT-5.6 Sol, набравшую 88,8% в одном из ведущих бенчмарков по программированию, Anthropic’s Claude Fable 5 с его показателем 80,3% по программной инженерии.
Ключевые моменты:
- GPT-5.6 Sol занимает первое место в Terminal-Bench 2.1 с результатом 88,8%, а режим Ultra поднимает показатель до 91,9%.
- Claude Fable 5 сохраняет самый широкий опубликованный отрыв на SWE-Bench Pro — 80,3% против 58,6% у GPT-5.5.
- Sol остаётся в ограниченном предпросмотре, одобренном правительством, тогда как Fable 5 вернулся к глобальной доступности 1 июля.
Заявления по бенчмаркам GPT-5.6 Sol
OpenAI представила в предварительном режиме семейство GPT-5.6 26 июня, это первый релиз после GPT-5.5 в апреле, разделив линейку на три уровня с Sol в роли флагмана.
Компания утверждает, что Sol достигает 88,8% в Terminal-Bench 2.1 — тесте для консольных кодирующих агентов, которые планируют, итеративно дорабатывают решения и координируют инструменты. Ресурсоёмкий режим Ultra, который запускает согласованную работу субагентов для ускорения сложных задач, растягивает результат до 91,9% — это самый высокий опубликованный показатель в рейтинге Terminal-Bench.
Обозреватели, которые сравнивали опубликованные диаграммы, помещают Fable 5 на несколько пунктов позади Sol в том же терминальном тесте, хотя приводимые цифры варьируются от 83,4% до 84,3%. В наборе по безопасности ExploitBench Sol, по сообщениям, соответствует классу Mythos, расходуя примерно треть выходных токенов — это сжатие стоимости важно при длительных запусках агентов.
Почти никто за пределами программы предварительного доступа пока не может независимо подтвердить эти числа — на это оговорку указывает ряд рецензентов, одновременно признавая сами «сырые» результаты.
Также читайте: OpenAI и Anthropic хотят IPO масштаба SpaceX, но Уолл-стрит может не справиться
Лидерство Fable 5 в кодинге и цены
Fable 5 по‑прежнему возглавляет бенчмарк, который большинство обозревателей считает решающим для автономной разработки ПО, и его преимущество там заметно. Он набирает 80,3% в SWE-Bench Pro, который измеряет сквозное исправление реальных задач на GitHub, против 58,6% у более старого GPT-5.5, и OpenAI пока не опубликовала показатель GPT-5.6 по этому тесту.
Аналитики, которые обнаружили разрывы такого масштаба в тестах по коду, рассуждению и знаниям, сомневаются, что один инкрементальный релиз способен полностью их закрыть.
По ценам ситуация обратная: по сообщениям, Sol стоит $5 за миллион входных токенов и $30 за выход, что вдвое дешевле Fable 5 с его $10 и $50. Несколько обозревателей утверждали, что разумная конфигурация направляет терминал‑управляемых агентов в сторону Sol, как только он станет доступен широко, а исправления на уровне репозиториев — к Fable 5.
Доступность проводит самую резкую границу: Sol остаётся в ограниченном предпросмотре примерно для 20 партнёров, одобренных правительством, тогда как Fable 5 вернулся к мировому запуску 1 июля с временным бонусом по использованию для платных подписчиков до 7 июля.
Июнь превратил доступ к передовым моделям для обеих лабораторий в подвижную цель, и этот эффект «хлеста» задаёт контекст для каждого обзора. Вашингтон отключил Fable 5 и его более мощного «собрата» Mythos 5 12 июня, указав на серьёзные киберриски, после того как исследователи Amazon обнаружили jailbreak, генерировавший эксплойт‑код. Министр торговли Говард Латник подтвердил отмену решения 30 июня по итогам двухнедельного пересмотра — спустя несколько дней после того, как Mythos 5 тихо вернулся примерно к 100 проверенным американским организациям.
Читайте далее: Почему ETH остаётся слабым, хотя стекинг Ethereum бьёт рекорды?





