GPT-5.6 Sol против Claude Fable 5: бенчмарки по коду показывают разделённую гонку

GPT-5.6 Sol против Claude Fable 5: бенчмарки по коду показывают разделённую гонку

Свежие сравнения лицом к лицу противопоставляют OpenAI’s GPT-5.6 Sol, набравшую 88,8% в одном из ведущих бенчмарков по программированию, Anthropic’s Claude Fable 5 с его показателем 80,3% по программной инженерии.

Ключевые моменты:

  • GPT-5.6 Sol занимает первое место в Terminal-Bench 2.1 с результатом 88,8%, а режим Ultra поднимает показатель до 91,9%.
  • Claude Fable 5 сохраняет самый широкий опубликованный отрыв на SWE-Bench Pro — 80,3% против 58,6% у GPT-5.5.
  • Sol остаётся в ограниченном предпросмотре, одобренном правительством, тогда как Fable 5 вернулся к глобальной доступности 1 июля.

Заявления по бенчмаркам GPT-5.6 Sol

OpenAI представила в предварительном режиме семейство GPT-5.6 26 июня, это первый релиз после GPT-5.5 в апреле, разделив линейку на три уровня с Sol в роли флагмана.

Компания утверждает, что Sol достигает 88,8% в Terminal-Bench 2.1 — тесте для консольных кодирующих агентов, которые планируют, итеративно дорабатывают решения и координируют инструменты. Ресурсоёмкий режим Ultra, который запускает согласованную работу субагентов для ускорения сложных задач, растягивает результат до 91,9% — это самый высокий опубликованный показатель в рейтинге Terminal-Bench.

Обозреватели, которые сравнивали опубликованные диаграммы, помещают Fable 5 на несколько пунктов позади Sol в том же терминальном тесте, хотя приводимые цифры варьируются от 83,4% до 84,3%. В наборе по безопасности ExploitBench Sol, по сообщениям, соответствует классу Mythos, расходуя примерно треть выходных токенов — это сжатие стоимости важно при длительных запусках агентов.

Почти никто за пределами программы предварительного доступа пока не может независимо подтвердить эти числа — на это оговорку указывает ряд рецензентов, одновременно признавая сами «сырые» результаты.

Также читайте: OpenAI и Anthropic хотят IPO масштаба SpaceX, но Уолл-стрит может не справиться

Лидерство Fable 5 в кодинге и цены

Fable 5 по‑прежнему возглавляет бенчмарк, который большинство обозревателей считает решающим для автономной разработки ПО, и его преимущество там заметно. Он набирает 80,3% в SWE-Bench Pro, который измеряет сквозное исправление реальных задач на GitHub, против 58,6% у более старого GPT-5.5, и OpenAI пока не опубликовала показатель GPT-5.6 по этому тесту.

Аналитики, которые обнаружили разрывы такого масштаба в тестах по коду, рассуждению и знаниям, сомневаются, что один инкрементальный релиз способен полностью их закрыть.

По ценам ситуация обратная: по сообщениям, Sol стоит $5 за миллион входных токенов и $30 за выход, что вдвое дешевле Fable 5 с его $10 и $50. Несколько обозревателей утверждали, что разумная конфигурация направляет терминал‑управляемых агентов в сторону Sol, как только он станет доступен широко, а исправления на уровне репозиториев — к Fable 5.

Доступность проводит самую резкую границу: Sol остаётся в ограниченном предпросмотре примерно для 20 партнёров, одобренных правительством, тогда как Fable 5 вернулся к мировому запуску 1 июля с временным бонусом по использованию для платных подписчиков до 7 июля.

Июнь превратил доступ к передовым моделям для обеих лабораторий в подвижную цель, и этот эффект «хлеста» задаёт контекст для каждого обзора. Вашингтон отключил Fable 5 и его более мощного «собрата» Mythos 5 12 июня, указав на серьёзные киберриски, после того как исследователи Amazon обнаружили jailbreak, генерировавший эксплойт‑код. Министр торговли Говард Латник подтвердил отмену решения 30 июня по итогам двухнедельного пересмотра — спустя несколько дней после того, как Mythos 5 тихо вернулся примерно к 100 проверенным американским организациям.

Читайте далее: Почему ETH остаётся слабым, хотя стекинг Ethereum бьёт рекорды?

Отказ от ответственности и предупреждение о рисках: Информация, представленная в этой статье, предназначена только для образовательных и информационных целей и основана на мнении автора. Она не является финансовой, инвестиционной, юридической или налоговой консультацией. Криптоактивы крайне волатильны и подвержены высоким рискам, включая риск потери всех или значительной части ваших инвестиций. Торговля или владение криптоактивами может не подходить для всех инвесторов. Мнения, выраженные в этой статье, принадлежат исключительно автору(ам) и не представляют официальную политику или позицию Yellow, её основателей или руководителей. Всегда проводите собственное тщательное исследование (D.Y.O.R.) и консультируйтесь с лицензированным финансовым специалистом перед принятием любых инвестиционных решений.
Последние новости
Показать все новости
GPT-5.6 Sol против Claude Fable 5: бенчмарки по коду показывают разделённую гонку | Yellow.com