Spadek wyników kodowania Claude Fable 5 ujawnia problem z routerem, a nie degradację modelu

Claude Fable 5 wrócił 1 lipca i spotkał się z ostrą krytyką użytkowników, ale dane z benchmarków wskazują raczej na surowszy router Anthropic, a nie słabszy model.

Kluczowe punkty:

BridgeBench odnotował załamanie wyników kodowania Fable 5 po przekierowaniu większości zadań debugowania z dala od modelu.

Arena.AI stwierdziła w większości stabilne wyniki ślepych preferencji ludzkich, z poprawą w kategoriach dokumentów i tekstu eksperckiego.

Programiści odczuwają największe zakłócenia, ponieważ rutynowe prompty debugowania mogą wyzwalać nowy klasyfikator.

Routing Fable 5

Claude Fable 5 wrócił online 1 lipca po ponownym uruchomieniu, a użytkownicy na X szybko opisali go jako zepsuty, „znerfiony” lub mniej zdolny niż wcześniej. Najmocniejszy argument za tym poglądem pochodził od BridgeMind, który ponownie uruchomił swój pakiet BridgeBench do kodowania przeciwko przywróconej wersji.

Wyniki wyglądały poważnie. Debugowanie spadło z 86,2 do 25,9, refaktoryzacja z 73,6 do 38,4, a odporność na halucynacje z 75,9 do 61,7.

Te liczby nie pokazują jednak czystego załamania na poziomie modelu, ponieważ BridgeBench podał, że tylko trzy z 12 zadań debugowania TypeScript faktycznie dotarły do Fable 5. Pozostałe dziewięć zostało przechwyconych przez nowy klasyfikator bezpieczeństwa Anthropic i wysłanych do Claude Opus 4.8, przy czym każde takie przekierowanie zostało ocenione na zero, ponieważ oceniany model nie udzielił odpowiedzi.

Zobacz też: Zagadkowe 491 BTC Strategy ożywia debatę o polityce sprzedaży Saylora

Klasyfikator Anthropic

Arena.AI doszła do innego wniosku, ponieważ mierzyła ślepe preferencje ludzkie w szerszym przekroju promptów, obejmującym zadania tekstowe, wizualne, dokumentowe, kodowe i agentskie. Wstępne dane pokazały, że Fable 5 utrzymuje w dużej mierze stabilną pozycję względem wersji czerwcowej.

Kod frontendu spadł z 1650 do 1623 Elo, co — jak podała Arena — nadal mieściło się w przedziale ufności, podczas gdy napływały głosy. Wyniki dla dokumentów wzrosły o 34 punkty, tekst ekspercki zyskał 25 punktów, a twórcze pisanie zwiększyło się o 9 punktów.

Ten podział sugeruje, że Fable 5 wciąż działa jak Fable 5, gdy prompt do niego dociera. Problem polega na tym, że prace programistyczne związane z bezpieczeństwem mogą zostać przekierowane zanim model odpowie, zwłaszcza gdy prompty zawierają terminy takie jak luka (vulnerability), exploit, hook lub fix.

Anthropic przyznał, że nowe klasyfikatory będą generować fałszywe alarmy przy zwykłej pracy związanej z kodowaniem i debugowaniem. Firma zapowiedziała dopracowanie systemu z czasem, ale nie podała docelowej daty.

Obecna konfiguracja wynika z szerszego sporu o bezpieczeństwo po tym, jak badacze z Amazon zgłosili jailbreak, który skłonił Fable 5 do identyfikowania i demonstrowania luk w oprogramowaniu. Odpowiedzią Anthropic był zachowawczy klasyfikator, który obecnie wydaje się blokować więcej niż tylko niebezpieczne prompty, do wyłapywania których został zaprojektowany.

Czytaj dalej: Trump twierdzi, że nie wiedział o 1,4 mld USD dochodu z krypto