Claude Fable 5 Coding-terugkeer onthult een routerprobleem, geen modeldegradatie

Claude Fable 5 keerde op 1 juli terug met felle klachten van gebruikers, maar benchmarkdata wijst op een strengere Anthropic-router in plaats van een zwakker model.

Belangrijkste punten:

BridgeBench meldde een instorting van de Fable 5-codescores nadat de meeste debuggingtaken niet meer naar het model werden gerouteerd.

Arena.AI vond grotendeels stabiele blinde menselijke voorkeuren, met winst in document- en experttekstcategorieën.

Ontwikkelaars ondervinden de grootste verstoring omdat routinematige debuggingprompts nu de nieuwe classifier kunnen activeren.

Fable 5-routing

Claude Fable 5 kwam op 1 juli weer online na zijn herinvoering, en gebruikers op X beschreven het al snel als kapot, generfd of minder capabel dan voorheen. Het sterkste bewijs voor dat standpunt kwam van BridgeMind, dat zijn BridgeBench-codesuite opnieuw draaide tegen de heringevoerde versie.

De resultaten zagen er ernstig uit. Debuggen daalde van 86,2 naar 25,9, refactoring zakte van 73,6 naar 38,4 en weerstand tegen hallucinaties ging van 75,9 naar 61,7.

Die cijfers tonen geen zuivere instorting op modelniveau, omdat BridgeBench aangaf dat slechts drie van de twaalf TypeScript-debuggingtaken daadwerkelijk Fable 5 bereikten. De andere negen werden onderschept door Anthropic’s nieuwe veiligheidsclassifier en doorgestuurd naar Claude Opus 4.8, waarbij elke fallback werd gescoord als nul omdat het geëvalueerde model niet antwoordde.

Ook lezen: Strategy’s mysterie rond 491 BTC wakkert debat aan over Saylors verkoopbeleid

Anthropic-classifier

Arena.AI bereikte een andere conclusie omdat het blinde menselijke voorkeuren mat over een bredere mix van prompts, waaronder tekst-, beeld-, document-, code- en agenttaken. De eerste data liet zien dat Fable 5 grotendeels stabiel bleef ten opzichte van de versie van juni.

Frontend-code zakte van 1650 naar 1623 Elo, wat volgens Arena binnen de betrouwbaarheidsmarge viel terwijl er meer stemmen werden verzameld. Documentprestaties stegen met 34 punten, experttekst won 25 punten en creatief schrijven nam toe met 9 punten.

Deze splitsing suggereert dat Fable 5 nog steeds presteert als Fable 5 wanneer prompts het model daadwerkelijk bereiken. Het probleem is dat aan veiligheid grenzend programmeerwerk kan worden omgeleid voordat het model reageert, vooral wanneer prompts termen bevatten als vulnerability, exploit, hook of fix.

Anthropic heeft erkend dat de nieuwe classifiers valse positieven zullen genereren bij gewoon programmeer- en debugwerk. Het bedrijf zegt het systeem in de loop van de tijd te verfijnen, maar heeft geen streefdatum genoemd.

De huidige opzet volgt op een bredere veiligheidscontroverse nadat onderzoekers van Amazon een jailbreak meldden die Fable 5 ertoe bracht softwarekwetsbaarheden te identificeren en te demonstreren. Anthropic’s antwoord was een conservatieve classifier, die nu meer lijkt te blokkeren dan alleen de gevaarlijke prompts waarvoor hij is ontworpen.

Lees hierna: Trump zegt dat hij niet wist van $1,4 mrd aan crypto-inkomsten