GPT-5.6 Sol проти Claude Fable 5: бенчмарки коду показують розділену гонку

Нові прямі порівняння зіштовхують OpenAI's GPT-5.6 Sol, який має 88,8% на провідному бенчмарку з програмування, з Anthropic's Claude Fable 5 та її показником 80,3% у сфері розробки ПЗ.

Ключові пункти:

GPT-5.6 Sol очолює Terminal-Bench 2.1 з результатом 88,8%, а режим Ultra піднімає його до 91,9%.

Claude Fable 5 зберігає найширшу опубліковану перевагу в SWE-Bench Pro з 80,3% проти 58,6% у GPT-5.5.

Sol залишається в обмеженому прев’ю, схваленому урядом, тоді як Fable 5 знову стала доступною у світі 1 липня.

Заявлені бенчмарки GPT-5.6 Sol

OpenAI представила прев’ю сімейства GPT-5.6 26 червня — це перший реліз після GPT-5.5 у квітні, який розділив лінійку на три рівні з Sol як флагманом.

Компанія стверджує, що Sol досягає 88,8% на Terminal-Bench 2.1 — тесті агентів командного рядка, які планують, ітерують і координують роботу інструментів. Вимогливий до обчислень режим Ultra, який запускає скоординовані субагенти для прискорення складних завдань, розтягує цей показник до 91,9% — це найвищий опублікований результат у таблиці Terminal-Bench.

Оглядачі, які порівняли опубліковані графіки, розміщують Fable 5 на кілька пунктів позаду Sol у тому ж термінальному тесті, хоча наведені цифри варіюються між 83,4% і 84,3%. У пакеті безпекових тестів ExploitBench Sol, за повідомленнями, відповідає продуктивності класу Mythos, витрачаючи приблизно третину вихідних токенів — таке стиснення вартості має значення для тривалих запусків агентів.

Майже ніхто поза прев’ю ще не може незалежно перевірити ці показники — застереження, яке відзначили кілька оглядачів, водночас визнаючи самі «сирі» результати.

Також читайте: OpenAI And Anthropic Want SpaceX-Sized IPOs, But Wall Street May Choke

Перевага Fable 5 у кодуванні та ціни

Fable 5 досі утримує бенчмарк, який більшість оглядачів вважають вирішальним для автономної розробки ПЗ, і її перевага там є суттєвою. Вона набирає 80,3% у SWE-Bench Pro, що вимірює наскрізне виправлення реальних задач GitHub, проти 58,6% в старішої GPT-5.5; OpenAI не опублікувала показник GPT-5.6 на цьому тесті.

Аналітики, які виявили розриви такого масштабу в тестах на кодування, міркування та знання, сумніваються, що одне інкрементальне оновлення може повністю їх закрити.

За ціною ситуація протилежна, оскільки Sol, за повідомленнями, коштує $5 за мільйон вхідних токенів і $30 за вихідні — це вдвічі менше за $10 і $50 у Fable 5. Декілька оглядачів стверджували, що раціональне налаштування полягає в тому, щоб спрямовувати агентів, які працюють через термінал, до Sol (як тільки вона відкриється), а виправлення на рівні репозиторію — до Fable 5.

Доступ проводить найрізкішу межу, оскільки Sol залишається в обмеженому прев’ю для приблизно 20 партнерів, схвалених урядом, тоді як Fable 5 повернулася до глобальної доступності 1 липня з тимчасовим бонусом на використання для платних підписників до 7 липня.

Червень перетворив доступ до передових моделей для обох лабораторій на рухому мішень, і цей «батут» задає тон кожному огляду. Вашингтон змусив Fable 5 та її потужнішу «сестру» Mythos 5 піти офлайн 12 червня, пославшись на серйозні кібербезпекові ризики, після того як дослідники Amazon виявили jailbreak, що генерував експлойт-код. Міністр торгівлі Говард Латнік підтвердив скасування обмежень 30 червня після двотижневого перегляду — за кілька днів після того, як Mythos 5 тихо повернулася приблизно до 100 перевірених американських організацій.

Читайте далі: Why Is ETH Still Weak While Ethereum Staking Hits Record Highs?