GPT-5.6 Sol проти Claude Fable 5: бенчмарки коду показують розділену гонку

GPT-5.6 Sol проти Claude Fable 5: бенчмарки коду показують розділену гонку

Нові прямі порівняння зіштовхують OpenAI's GPT-5.6 Sol, який має 88,8% на провідному бенчмарку з програмування, з Anthropic's Claude Fable 5 та її показником 80,3% у сфері розробки ПЗ.

Ключові пункти:

  • GPT-5.6 Sol очолює Terminal-Bench 2.1 з результатом 88,8%, а режим Ultra піднімає його до 91,9%.
  • Claude Fable 5 зберігає найширшу опубліковану перевагу в SWE-Bench Pro з 80,3% проти 58,6% у GPT-5.5.
  • Sol залишається в обмеженому прев’ю, схваленому урядом, тоді як Fable 5 знову стала доступною у світі 1 липня.

Заявлені бенчмарки GPT-5.6 Sol

OpenAI представила прев’ю сімейства GPT-5.6 26 червня — це перший реліз після GPT-5.5 у квітні, який розділив лінійку на три рівні з Sol як флагманом.

Компанія стверджує, що Sol досягає 88,8% на Terminal-Bench 2.1 — тесті агентів командного рядка, які планують, ітерують і координують роботу інструментів. Вимогливий до обчислень режим Ultra, який запускає скоординовані субагенти для прискорення складних завдань, розтягує цей показник до 91,9% — це найвищий опублікований результат у таблиці Terminal-Bench.

Оглядачі, які порівняли опубліковані графіки, розміщують Fable 5 на кілька пунктів позаду Sol у тому ж термінальному тесті, хоча наведені цифри варіюються між 83,4% і 84,3%. У пакеті безпекових тестів ExploitBench Sol, за повідомленнями, відповідає продуктивності класу Mythos, витрачаючи приблизно третину вихідних токенів — таке стиснення вартості має значення для тривалих запусків агентів.

Майже ніхто поза прев’ю ще не може незалежно перевірити ці показники — застереження, яке відзначили кілька оглядачів, водночас визнаючи самі «сирі» результати.

Також читайте: OpenAI And Anthropic Want SpaceX-Sized IPOs, But Wall Street May Choke

Перевага Fable 5 у кодуванні та ціни

Fable 5 досі утримує бенчмарк, який більшість оглядачів вважають вирішальним для автономної розробки ПЗ, і її перевага там є суттєвою. Вона набирає 80,3% у SWE-Bench Pro, що вимірює наскрізне виправлення реальних задач GitHub, проти 58,6% в старішої GPT-5.5; OpenAI не опублікувала показник GPT-5.6 на цьому тесті.

Аналітики, які виявили розриви такого масштабу в тестах на кодування, міркування та знання, сумніваються, що одне інкрементальне оновлення може повністю їх закрити.

За ціною ситуація протилежна, оскільки Sol, за повідомленнями, коштує $5 за мільйон вхідних токенів і $30 за вихідні — це вдвічі менше за $10 і $50 у Fable 5. Декілька оглядачів стверджували, що раціональне налаштування полягає в тому, щоб спрямовувати агентів, які працюють через термінал, до Sol (як тільки вона відкриється), а виправлення на рівні репозиторію — до Fable 5.

Доступ проводить найрізкішу межу, оскільки Sol залишається в обмеженому прев’ю для приблизно 20 партнерів, схвалених урядом, тоді як Fable 5 повернулася до глобальної доступності 1 липня з тимчасовим бонусом на використання для платних підписників до 7 липня.

Червень перетворив доступ до передових моделей для обох лабораторій на рухому мішень, і цей «батут» задає тон кожному огляду. Вашингтон змусив Fable 5 та її потужнішу «сестру» Mythos 5 піти офлайн 12 червня, пославшись на серйозні кібербезпекові ризики, після того як дослідники Amazon виявили jailbreak, що генерував експлойт-код. Міністр торгівлі Говард Латнік підтвердив скасування обмежень 30 червня після двотижневого перегляду — за кілька днів після того, як Mythos 5 тихо повернулася приблизно до 100 перевірених американських організацій.

Читайте далі: Why Is ETH Still Weak While Ethereum Staking Hits Record Highs?

Відмова від відповідальності та попередження про ризики: Інформація, надана в цій статті, призначена лише для освітніх та інформаційних цілей і базується на думці автора. Вона не є фінансовою, інвестиційною, правовою чи податковою консультацією. Криптоактиви є надзвичайно волатильними та піддаються високому ризику, включаючи ризик втрати всіх або значної частини ваших інвестицій. Торгівля або утримання криптоактивів може не підходити для всіх інвесторів. Думки, висловлені в цій статті, належать виключно автору(ам) і не представляють офіційну політику чи позицію Yellow, її засновників або керівників. Завжди проводьте власне ретельне дослідження (D.Y.O.R.) та консультуйтесь з ліцензованим фінансовим фахівцем перед прийняттям будь-яких інвестиційних рішень.
Останні новини
Показати всі новини