Il calo nel coding di Claude Fable 5 rivela un problema di instradamento, non un decadimento del modello

Claude Fable 5 è tornato il 1° luglio con forti lamentele degli utenti, ma i dati dei benchmark puntano a un router Anthropic più restrittivo piuttosto che a un modello più debole.

Punti chiave:

BridgeBench ha riportato un crollo nei punteggi di coding di Fable 5 dopo che la maggior parte dei task di debugging è stata instradata lontano dal modello.

Arena.AI ha riscontrato risultati per lo più stabili nelle valutazioni cieche delle preferenze umane, con miglioramenti nelle categorie documenti e testi esperti.

Gli sviluppatori subiscono l’impatto più chiaro perché i prompt di debugging di routine possono attivare il nuovo classificatore.

Instradamento di Fable 5

Claude Fable 5 è tornato online il 1° luglio dopo il suo ripristino, e gli utenti su X lo hanno rapidamente descritto come rotto, depotenziato o meno capace di prima. La prova più forte a sostegno di questa opinione è arrivata da BridgeMind, che ha rieseguito la sua suite di coding BridgeBench contro la versione ripristinata.

I risultati sembravano severi. Il debugging è sceso da 86,2 a 25,9, il refactoring è sceso da 73,6 a 38,4 e la resistenza alle allucinazioni è diminuita da 75,9 a 61,7.

Questi numeri non mostrano un crollo netto a livello di modello perché BridgeBench ha dichiarato che solo tre dei 12 task di debugging TypeScript sono effettivamente arrivati a Fable 5. Gli altri nove sono stati intercettati dal nuovo classificatore di sicurezza di Anthropic e inviati a Claude Opus 4.8, con ogni fallback valutato come zero perché il modello oggetto della valutazione non ha risposto.

Classificatore di Anthropic

Arena.AI è arrivata a una conclusione diversa perché ha misurato le preferenze umane cieche su un mix più ampio di prompt, inclusi testo, visione, documenti, codice e task per agenti. I suoi primi dati hanno mostrato che Fable 5 rimaneva per lo più stabile rispetto alla versione di giugno.

Il codice frontend è sceso da 1650 a 1623 Elo, valore che secondo Arena rimaneva all’interno dell’intervallo di confidenza mentre si accumulavano i voti. Le prestazioni sui documenti sono aumentate di 34 punti, i testi esperti hanno guadagnato 25 punti e la scrittura creativa è cresciuta di 9 punti.

Questa divergenza suggerisce che Fable 5 si comporta ancora come Fable 5 quando i prompt lo raggiungono. Il problema è che il lavoro di coding vicino alla sicurezza può essere deviato prima che il modello risponda, soprattutto quando i prompt contengono termini come vulnerabilità, exploit, hook o fix.

Anthropic ha riconosciuto che i nuovi classificatori genereranno falsi positivi sul normale lavoro di coding e debugging. L’azienda ha dichiarato che affinerà il sistema nel tempo, ma non ha indicato una data obiettivo.

L’attuale configurazione segue una disputa più ampia sulla sicurezza dopo che i ricercatori di Amazon hanno riportato un jailbreak che spingeva Fable 5 a identificare e dimostrare vulnerabilità software. La risposta di Anthropic è stata un classificatore prudente, che ora sembra bloccare più dei soli prompt pericolosi per cui era stato progettato.

Da leggere dopo: Trump afferma di non essere a conoscenza di 1,4 miliardi di dollari di reddito in crypto