GPT-5.6 Sol проти Claude Fable 5: бенчмарки кодування показують розділену гонку

GPT-5.6 Sol проти Claude Fable 5: бенчмарки кодування показують розділену гонку

Нові порівняльні огляди протиставляють OpenAI's GPT-5.6 Sol, який має 88,8% у провідному бенчмарку кодування, Anthropic's Claude Fable 5 з його результатом 80,3% у програмній інженерії.

Ключові моменти:

  • GPT-5.6 Sol очолює Terminal-Bench 2.1 з результатом 88,8%, а режим Ultra піднімає показник до 91,9%.
  • Claude Fable 5 зберігає найширший опублікований відрив у SWE-Bench Pro з 80,3% проти 58,6% у GPT-5.5.
  • Sol досі перебуває в обмеженому попередньому перегляді, схваленому урядом, тоді як Fable 5 з 1 липня знову доступний у всьому світі.

Заявлені бенчмарки GPT-5.6 Sol

OpenAI представила попередній огляд сімейства GPT-5.6 26 червня — це перший реліз після GPT-5.5 у квітні, що розділяє лінійку на три рівні з Sol як флагманом.

Компанія стверджує, що Sol досягає 88,8% у Terminal-Bench 2.1 — тесті для агентів командного рядка, які планують, ітерують та координують інструменти. Ресурсоємний режим Ultra, який запускає скоординовані субагенти для прискорення складних завдань, розширює цей показник до 91,9% — це найвищий опублікований результат у рейтингу Terminal-Bench.

Оглядачі, які порівнювали опубліковані діаграми, розміщують Fable 5 на кілька пунктів позаду Sol у тому ж тесті терміналу, хоча наведені цифри коливаються між 83,4% і 84,3%. У пакеті безпекових тестів ExploitBench Sol, за повідомленнями, досягає рівня моделей класу Mythos, водночас витрачаючи приблизно третину вихідних токенів — компресія вартості, що має значення в довгих запусках агентів.

Майже ніхто поза програмою попереднього доступу поки не може незалежно перевірити ці цифри — застереження, на яке вказали кілька оглядачів, водночас визнаючи високі сирі показники.

Також читайте: OpenAI And Anthropic Want SpaceX-Sized IPOs, But Wall Street May Choke

Перевага Fable 5 у кодуванні та ціни

Fable 5 усе ще утримує бенчмарк, який більшість оглядачів вважає вирішальним для автономної роботи з ПЗ, і його перевага там є суттєвою. Він набирає 80,3% у SWE-Bench Pro, що вимірює наскрізне виправлення реальних задач з GitHub, проти 58,6% у старішого GPT-5.5, а OpenAI не опублікувала показник GPT-5.6 у цьому тесті.

Аналітики, які виявили розриви такого масштабу в тестах кодування, міркування й знань, сумніваються, що один інкрементальний реліз здатен повністю їх закрити.

За ціною ситуація протилежна: Sol, за повідомленнями, коштує $5 за мільйон вхідних токенів і $30 за вихідні, тобто вдвічі дешевше за Fable 5 з його $10 і $50. Кілька оглядачів стверджували, що розумна конфігурація спрямовує агентів, які працюють через термінал, до Sol (як тільки він відкриється), а виправлення на рівні репозиторіїв — до Fable 5.

Найрізкіша межа проходить за доступом: Sol і далі залишається в обмеженому попередньому перегляді приблизно для 20 партнерів, схвалених урядом, тоді як Fable 5 повернувся до глобальної доступності 1 липня з тимчасовим бонусом використання для платних підписників до 7 липня.

Червень перетворив доступ до передових моделей для обох лабораторій на рухому мішень, і цей ефект «батога» визначає контекст кожного огляду. Вашингтон змусив Fable 5 і його потужнішого «брата» Mythos 5 піти офлайн 12 червня, посилаючись на серйозні кібербезпекові ризики, після того як дослідники Amazon виявили джейлбрейк, що генерував експлойт-код. Міністр торгівлі Говард Лутнік підтвердив скасування обмежень 30 червня після двотижневого перегляду, за кілька днів потому, як Mythos 5 тихо повернувся приблизно до 100 перевірених американських організацій.

Читайте далі: Why Is ETH Still Weak While Ethereum Staking Hits Record Highs?

Відмова від відповідальності та попередження про ризики: Інформація, надана в цій статті, призначена лише для освітніх та інформаційних цілей і базується на думці автора. Вона не є фінансовою, інвестиційною, правовою чи податковою консультацією. Криптоактиви є надзвичайно волатильними та піддаються високому ризику, включаючи ризик втрати всіх або значної частини ваших інвестицій. Торгівля або утримання криптоактивів може не підходити для всіх інвесторів. Думки, висловлені в цій статті, належать виключно автору(ам) і не представляють офіційну політику чи позицію Yellow, її засновників або керівників. Завжди проводьте власне ретельне дослідження (D.Y.O.R.) та консультуйтесь з ліцензованим фінансовим фахівцем перед прийняттям будь-яких інвестиційних рішень.
Останні новини
Показати всі новини
GPT-5.6 Sol проти Claude Fable 5: бенчмарки кодування показують розділену гонку | Yellow.com