Claude Fable 5 è tornato il 1° luglio con forti lamentele da parte degli utenti, ma i dati dei benchmark indicano un router Anthropic più rigido piuttosto che un modello più debole.
Punti chiave:
- BridgeBench ha riportato un crollo dei punteggi di coding di Fable 5 dopo che la maggior parte dei task di debugging è stata instradata lontano dal modello.
- Arena.AI ha trovato risultati per lo più stabili nelle valutazioni cieche di preferenza umana, con miglioramenti nelle categorie documenti e testi esperti.
- Gli sviluppatori subiscono il disagio più evidente perché i prompt di debugging di routine possono attivare il nuovo classificatore.
Instradamento di Fable 5
Claude Fable 5 è tornato online il 1° luglio dopo la sua reintegrazione, e gli utenti su X lo hanno rapidamente descritto come rotto, depotenziato o meno capace di prima. La prova più forte a sostegno di questa visione è arrivata da BridgeMind, che ha rilanciato la sua suite di coding BridgeBench contro la versione reintegrata.
I risultati sembravano pesanti. Il debugging è sceso da 86,2 a 25,9, il refactoring è calato da 73,6 a 38,4 e la resistenza alle allucinazioni è passata da 75,9 a 61,7.
Questi numeri non mostrano un crollo netto a livello di modello perché BridgeBench ha dichiarato che solo tre dei 12 task di debugging TypeScript sono effettivamente arrivati a Fable 5. Gli altri nove sono stati intercettati dal nuovo classificatore di sicurezza di Anthropic e inviati a Claude Opus 4.8, con ciascun fallback valutato come zero perché il modello sotto esame non ha risposto.
Leggi anche: Il mistero dei 491 BTC di Strategy riaccende il dibattito sulla politica di vendita di Saylor
Classificatore di Anthropic
Arena.AI è giunta a una conclusione diversa perché ha misurato le preferenze umane cieche su un mix più ampio di prompt, inclusi testo, visione, documenti, codice e task per agenti. I suoi primi dati hanno mostrato che Fable 5 è rimasto per lo più stabile rispetto alla versione di giugno.
Il codice frontend è sceso da 1650 a 1623 Elo, che secondo Arena rimaneva entro l’intervallo di confidenza mentre si accumulavano i voti. Le prestazioni sui documenti sono aumentate di 34 punti, i testi esperti hanno guadagnato 25 punti e la scrittura creativa è cresciuta di 9 punti.
La divergenza suggerisce che Fable 5 si comporta ancora come Fable 5 quando i prompt lo raggiungono. Il problema è che il lavoro di coding vicino alla sicurezza può essere deviato prima che il modello risponda, soprattutto quando i prompt contengono termini come vulnerability, exploit, hook o fix.
Anthropic ha riconosciuto che i nuovi classificatori genereranno falsi positivi sul normale lavoro di programmazione e debugging. L’azienda ha dichiarato che affinerà il sistema nel tempo, ma non ha fornito una data obiettivo.
L’attuale configurazione segue una disputa di sicurezza più ampia dopo che i ricercatori di Amazon hanno riportato un jailbreak che spingeva Fable 5 a identificare e dimostrare vulnerabilità software. La risposta di Anthropic è stata un classificatore conservativo, che ora sembra bloccare più dei soli prompt pericolosi che era stato progettato per intercettare.
Da leggere dopo: Trump afferma di non essere a conoscenza di 1,4 miliardi di dollari di introiti in crypto





