Витік про кодування Claude Fable 5 показує проблему з роутером, а не деградацію моделі

Claude Fable 5 повернувся 1 липня з гучними скаргами користувачів, але дані бенчмарків вказують радше на жорсткіший роутер Anthropic, ніж на слабшу модель.

Ключові моменти:

BridgeBench зафіксував провал оцінок кодування Fable 5 після того, як більшість задач з налагодження перестали потрапляти до моделі.

Arena.AI виявила переважно стабільні сліпі результати людських уподобань, із зростанням у категоріях документів та експертного тексту.

Розробники стикаються з найбільшими збоями, оскільки звичайні запити на налагодження можуть активувати новий класифікатор.

Роутинг Fable 5

Claude Fable 5 знову запрацював 1 липня після поновлення, і користувачі в X швидко почали описувати його як зламаний, «занерфлений» або менш здібний, ніж раніше. Найпереконливіші докази цієї думки надійшли від BridgeMind, яка повторно запустила свій набір тестів BridgeBench для кодування проти відновленої версії.

Результати виглядали різко. Налагодження впало з 86,2 до 25,9, рефакторинг знизився з 73,6 до 38,4, а стійкість до галюцинацій – з 75,9 до 61,7.

Ці цифри не демонструють чистий обвал на рівні моделі, оскільки BridgeBench повідомила, що лише три з 12 задач налагодження на TypeScript фактично дійшли до Fable 5. Інші дев’ять були перехоплені новим класифікатором безпеки Anthropic і відправлені до Claude Opus 4.8, при цьому кожен «фолбек» оцінювався в нуль, тому що оцінювана модель не відповідала.

Також читайте: Таємниця 491 BTC від Strategy відновлює суперечки щодо політики продажів Сейлора

Класифікатор Anthropic

Arena.AI дійшла іншого висновку, оскільки вимірювала сліпі людські вподобання на ширшому наборі запитів, включно з текстом, зображеннями, документами, кодом і агентними задачами. Її ранні дані показали, що Fable 5 переважно зберігає позиції відносно червневої версії.

Фронтенд-код просів з 1650 до 1623 за Elo, що, за словами Arena, усе ще вкладалося в довірчий інтервал, поки накопичуються голоси. Продуктивність на документах зросла на 34 пункти, експертний текст додав 25 пунктів, а креативне письмо – 9 пунктів.

Такий розподіл свідчить, що Fable 5 усе ще працює як Fable 5, коли запити до нього доходять. Проблема в тому, що пов’язану з безпекою роботу з кодом можуть відхилити ще до відповіді моделі, особливо коли в запитах присутні терміни на кшталт «vulnerability», «exploit», «hook» або «fix».

Anthropic визнає, що нові класифікатори будуть породжувати хибні спрацьовування на звичайній роботі з кодування та налагодження. Компанія заявила, що з часом вдосконалить систему, але не назвала цільової дати.

Поточна конфігурація стала відповіддю на ширшу суперечку щодо безпеки після того, як дослідники Amazon повідомили про джейлбрейк, що змушував Fable 5 виявляти й демонструвати вразливості ПЗ. Відповіддю Anthropic став консервативний класифікатор, який тепер, схоже, блокує більше, ніж небезпечні запити, для виявлення яких його проєктували.

Читайте далі: Трамп заявив, що не знав про $1,4 млрд криптодохід