Нові порівняльні огляди протиставляють OpenAI's GPT-5.6 Sol, який має 88,8% у провідному бенчмарку кодування, Anthropic's Claude Fable 5 з його результатом 80,3% у програмній інженерії.
Ключові моменти:
- GPT-5.6 Sol очолює Terminal-Bench 2.1 з результатом 88,8%, а режим Ultra піднімає показник до 91,9%.
- Claude Fable 5 зберігає найширший опублікований відрив у SWE-Bench Pro з 80,3% проти 58,6% у GPT-5.5.
- Sol досі перебуває в обмеженому попередньому перегляді, схваленому урядом, тоді як Fable 5 з 1 липня знову доступний у всьому світі.
Заявлені бенчмарки GPT-5.6 Sol
OpenAI представила попередній огляд сімейства GPT-5.6 26 червня — це перший реліз після GPT-5.5 у квітні, що розділяє лінійку на три рівні з Sol як флагманом.
Компанія стверджує, що Sol досягає 88,8% у Terminal-Bench 2.1 — тесті для агентів командного рядка, які планують, ітерують та координують інструменти. Ресурсоємний режим Ultra, який запускає скоординовані субагенти для прискорення складних завдань, розширює цей показник до 91,9% — це найвищий опублікований результат у рейтингу Terminal-Bench.
Оглядачі, які порівнювали опубліковані діаграми, розміщують Fable 5 на кілька пунктів позаду Sol у тому ж тесті терміналу, хоча наведені цифри коливаються між 83,4% і 84,3%. У пакеті безпекових тестів ExploitBench Sol, за повідомленнями, досягає рівня моделей класу Mythos, водночас витрачаючи приблизно третину вихідних токенів — компресія вартості, що має значення в довгих запусках агентів.
Майже ніхто поза програмою попереднього доступу поки не може незалежно перевірити ці цифри — застереження, на яке вказали кілька оглядачів, водночас визнаючи високі сирі показники.
Також читайте: OpenAI And Anthropic Want SpaceX-Sized IPOs, But Wall Street May Choke
Перевага Fable 5 у кодуванні та ціни
Fable 5 усе ще утримує бенчмарк, який більшість оглядачів вважає вирішальним для автономної роботи з ПЗ, і його перевага там є суттєвою. Він набирає 80,3% у SWE-Bench Pro, що вимірює наскрізне виправлення реальних задач з GitHub, проти 58,6% у старішого GPT-5.5, а OpenAI не опублікувала показник GPT-5.6 у цьому тесті.
Аналітики, які виявили розриви такого масштабу в тестах кодування, міркування й знань, сумніваються, що один інкрементальний реліз здатен повністю їх закрити.
За ціною ситуація протилежна: Sol, за повідомленнями, коштує $5 за мільйон вхідних токенів і $30 за вихідні, тобто вдвічі дешевше за Fable 5 з його $10 і $50. Кілька оглядачів стверджували, що розумна конфігурація спрямовує агентів, які працюють через термінал, до Sol (як тільки він відкриється), а виправлення на рівні репозиторіїв — до Fable 5.
Найрізкіша межа проходить за доступом: Sol і далі залишається в обмеженому попередньому перегляді приблизно для 20 партнерів, схвалених урядом, тоді як Fable 5 повернувся до глобальної доступності 1 липня з тимчасовим бонусом використання для платних підписників до 7 липня.
Червень перетворив доступ до передових моделей для обох лабораторій на рухому мішень, і цей ефект «батога» визначає контекст кожного огляду. Вашингтон змусив Fable 5 і його потужнішого «брата» Mythos 5 піти офлайн 12 червня, посилаючись на серйозні кібербезпекові ризики, після того як дослідники Amazon виявили джейлбрейк, що генерував експлойт-код. Міністр торгівлі Говард Лутнік підтвердив скасування обмежень 30 червня після двотижневого перегляду, за кілька днів потому, як Mythos 5 тихо повернувся приблизно до 100 перевірених американських організацій.
Читайте далі: Why Is ETH Still Weak While Ethereum Staking Hits Record Highs?





