Spadek wyników kodowania Claude Fable 5 ujawnia problem z routerem, a nie degradację modelu

Spadek wyników kodowania Claude Fable 5 ujawnia problem z routerem, a nie degradację modelu

Claude Fable 5 powrócił 1 lipca i spotkał się z ostrą krytyką użytkowników, ale dane z benchmarków wskazują raczej na bardziej rygorystyczny router Anthropic niż na słabszy model.

Kluczowe punkty:

  • BridgeBench odnotował załamanie wyników Fable 5 w zadaniach kodowania po tym, jak większość zadań debugowania przestała trafiać do modelu.
  • Arena.AI stwierdziła w większości stabilne wyniki ślepych preferencji ludzkich, z poprawą w kategoriach dokumentów i eksperckiego tekstu.
  • Deweloperzy odczuwają najbardziej wyraźne zakłócenia, bo rutynowe prośby o debugowanie mogą uruchamiać nowy klasyfikator.

Routing Fable 5

Claude Fable 5 wrócił online 1 lipca po ponownym uruchomieniu, a użytkownicy na X szybko zaczęli opisywać go jako zepsuty, „znerfiony” lub mniej wydajny niż wcześniej. Najmocniejsze argumenty za tym stanowiskiem pochodziły od BridgeMind, które ponownie uruchomiło swój zestaw testów BridgeBench dla kodowania na przywróconej wersji.

Wyniki wyglądały poważnie. Debugowanie spadło z 86,2 do 25,9, refaktoryzacja z 73,6 do 38,4, a odporność na halucynacje z 75,9 do 61,7.

Te liczby nie pokazują jednak czystego załamania na poziomie modelu, ponieważ BridgeBench podał, że tylko trzy z 12 zadań debugowania w TypeScript faktycznie dotarły do Fable 5. Pozostałe dziewięć zostało przechwyconych przez nowy klasyfikator bezpieczeństwa Anthropic i przekierowanych do Claude Opus 4.8, przy czym każdy taki fallback został oceniony na zero, ponieważ oceniany model nie udzielił odpowiedzi.

Zobacz też: Zagadka 491 BTC Strategy ożywia debatę o polityce sprzedaży Saylora

Klasyfikator Anthropic

Arena.AI doszła do innego wniosku, ponieważ mierzyła ślepe preferencje ludzkie na szerszej mieszance promptów, obejmujących zadania tekstowe, wizualne, dokumentowe, kodowe i agentowe. Jej wczesne dane pokazały, że Fable 5 w dużej mierze utrzymuje poziom z wersji czerwcowej.

Wynik dla frontendowego kodu spadł z 1650 do 1623 Elo, co Arena określiła jako mieszczące się w przedziale ufności, podczas gdy napływały kolejne głosy. Wydajność w zadaniach dokumentowych wzrosła o 34 punkty, tekst ekspercki zyskał 25 punktów, a pisanie kreatywne poprawiło się o 9 punktów.

Ten rozjazd sugeruje, że Fable 5 nadal zachowuje się jak Fable 5, gdy prompt do niego dociera. Problem w tym, że prace programistyczne związane z bezpieczeństwem mogą zostać przekierowane, zanim model odpowie – zwłaszcza gdy prompt zawiera terminy takie jak „vulnerability”, „exploit”, „hook” czy „fix”.

Anthropic przyznał, że nowe klasyfikatory będą generować fałszywe alarmy w przypadku zwykłej pracy związanej z kodowaniem i debugowaniem. Firma zapowiedziała dopracowanie systemu w czasie, ale nie podała docelowej daty.

Obecna konfiguracja jest reakcją na szerszy spór o bezpieczeństwo po tym, jak badacze Amazonu opisali jailbreak, który skłonił Fable 5 do identyfikowania i demonstrowania luk w oprogramowaniu. Odpowiedzią Anthropic był zachowawczy klasyfikator, który najwyraźniej blokuje teraz więcej niż tylko niebezpieczne prompty, które miał wychwytywać.

Czytaj dalej: Trump twierdzi, że nie wiedział o 1,4 mld USD dochodu z krypto

Zastrzeżenie i ostrzeżenie o ryzyku: Informacje zawarte w tym artykule służą wyłącznie celom edukacyjnym i informacyjnym i opierają się na opinii autora. Nie stanowią one porad finansowych, inwestycyjnych, prawnych czy podatkowych. Aktywa kryptowalutowe są bardzo zmienne i podlegają wysokiemu ryzyku, w tym ryzyku utraty całości lub znacznej części Twojej inwestycji. Handel lub posiadanie aktywów krypto może nie być odpowiednie dla wszystkich inwestorów. Poglądy wyrażone w tym artykule są wyłącznie poglądami autora/autorów i nie reprezentują oficjalnej polityki lub stanowiska Yellow, jej założycieli lub dyrektorów. Zawsze przeprowadź własne dokładne badania (D.Y.O.R.) i skonsultuj się z licencjonowanym specjalistą finansowym przed podjęciem jakiejkolwiek decyzji inwestycyjnej.
Spadek wyników kodowania Claude Fable 5 ujawnia problem z routerem, a nie degradację modelu | Yellow.com