Il calo nel coding di Claude Fable 5 rivela un problema di instradamento, non un decadimento del modello

Il calo nel coding di Claude Fable 5 rivela un problema di instradamento, non un decadimento del modello

Claude Fable 5 è tornato il 1° luglio con forti lamentele da parte degli utenti, ma i dati dei benchmark indicano un router Anthropic più rigido piuttosto che un modello più debole.

Punti chiave:

  • BridgeBench ha riportato un crollo dei punteggi di coding di Fable 5 dopo che la maggior parte dei task di debugging è stata instradata lontano dal modello.
  • Arena.AI ha trovato risultati per lo più stabili nelle valutazioni cieche di preferenza umana, con miglioramenti nelle categorie documenti e testi esperti.
  • Gli sviluppatori subiscono il disagio più evidente perché i prompt di debugging di routine possono attivare il nuovo classificatore.

Instradamento di Fable 5

Claude Fable 5 è tornato online il 1° luglio dopo la sua reintegrazione, e gli utenti su X lo hanno rapidamente descritto come rotto, depotenziato o meno capace di prima. La prova più forte a sostegno di questa visione è arrivata da BridgeMind, che ha rilanciato la sua suite di coding BridgeBench contro la versione reintegrata.

I risultati sembravano pesanti. Il debugging è sceso da 86,2 a 25,9, il refactoring è calato da 73,6 a 38,4 e la resistenza alle allucinazioni è passata da 75,9 a 61,7.

Questi numeri non mostrano un crollo netto a livello di modello perché BridgeBench ha dichiarato che solo tre dei 12 task di debugging TypeScript sono effettivamente arrivati a Fable 5. Gli altri nove sono stati intercettati dal nuovo classificatore di sicurezza di Anthropic e inviati a Claude Opus 4.8, con ciascun fallback valutato come zero perché il modello sotto esame non ha risposto.

Leggi anche: Il mistero dei 491 BTC di Strategy riaccende il dibattito sulla politica di vendita di Saylor

Classificatore di Anthropic

Arena.AI è giunta a una conclusione diversa perché ha misurato le preferenze umane cieche su un mix più ampio di prompt, inclusi testo, visione, documenti, codice e task per agenti. I suoi primi dati hanno mostrato che Fable 5 è rimasto per lo più stabile rispetto alla versione di giugno.

Il codice frontend è sceso da 1650 a 1623 Elo, che secondo Arena rimaneva entro l’intervallo di confidenza mentre si accumulavano i voti. Le prestazioni sui documenti sono aumentate di 34 punti, i testi esperti hanno guadagnato 25 punti e la scrittura creativa è cresciuta di 9 punti.

La divergenza suggerisce che Fable 5 si comporta ancora come Fable 5 quando i prompt lo raggiungono. Il problema è che il lavoro di coding vicino alla sicurezza può essere deviato prima che il modello risponda, soprattutto quando i prompt contengono termini come vulnerability, exploit, hook o fix.

Anthropic ha riconosciuto che i nuovi classificatori genereranno falsi positivi sul normale lavoro di programmazione e debugging. L’azienda ha dichiarato che affinerà il sistema nel tempo, ma non ha fornito una data obiettivo.

L’attuale configurazione segue una disputa di sicurezza più ampia dopo che i ricercatori di Amazon hanno riportato un jailbreak che spingeva Fable 5 a identificare e dimostrare vulnerabilità software. La risposta di Anthropic è stata un classificatore conservativo, che ora sembra bloccare più dei soli prompt pericolosi che era stato progettato per intercettare.

Da leggere dopo: Trump afferma di non essere a conoscenza di 1,4 miliardi di dollari di introiti in crypto

Disclaimer e avvertenza sui rischi: Le informazioni fornite in questo articolo sono solo per scopi educativi e informativi e sono basate sull'opinione dell'autore. Non costituiscono consulenza finanziaria, di investimento, legale o fiscale. Gli asset di criptovaluta sono altamente volatili e soggetti ad alto rischio, incluso il rischio di perdere tutto o una parte sostanziale del tuo investimento. Il trading o il possesso di asset crypto potrebbe non essere adatto a tutti gli investitori. Le opinioni espresse in questo articolo sono esclusivamente quelle dell'autore/autori e non rappresentano la politica ufficiale o la posizione di Yellow, dei suoi fondatori o dei suoi dirigenti. Conduci sempre la tua ricerca approfondita (D.Y.O.R.) e consulta un professionista finanziario autorizzato prima di prendere qualsiasi decisione di investimento.