Anthropic sta annullando una Claude Fable 5 policy che degradava di nascosto i risultati per i ricercatori che sviluppano sistemi di IA concorrenti, una restrizione che l’azienda ha indicato come pari allo 0,03% del traffico.
Punti chiave:
- Anthropic ha annullato una policy di Fable 5 che indeboliva in silenzio le risposte per la ricerca su IA di frontiera.
- Il limite non divulgato era nascosto in una system card di 319 pagine e non forniva alcuna notifica all’utente.
- Le richieste segnalate ricadranno ora apertamente su Claude Opus 4.8, con il motivo mostrato ogni volta.
Revoca dei limiti di Claude Fable 5
L’azienda ha confermato il cambiamento a Wired questa settimana, che ha riportato per prima la retromarcia dopo giorni di crescente rabbia tra ricercatori, sviluppatori e analisti di policy online. Il passo indietro arriva a ridosso del lancio di martedì di Fable 5, il primo Mythos-class model di Anthropic disponibile pubblicamente, un sistema che il laboratorio aveva a lungo trattenuto per la sua maggiore abilità nell’individuare vulnerabilità software. Nel giro di poche ore dal rilascio, gli utenti hanno notato che il modello reindirizzava in silenzio o indeboliva le risposte su una ristretta fascia di lavori avanzati di IA.
Questi compiti riguardavano l’addestramento di modelli concorrenti, il debug di codice di IA e l’ottimizzazione di reti neurali, tutti segnalati tramite un paragrafo nascosto in una system card di 319 pagine. Invece di bloccarli apertamente, Fable 5 si affidava a modifiche nascoste dei prompt e a vettori di guida per attenuare silenziosamente le risposte, un limite che Anthropic ha quantificato nello 0,03% del traffico.
La correzione mantiene la salvaguardia ma elimina la segretezza che ha scatenato le critiche più dure. Anthropic aveva difeso la versione nascosta sostenendo che regole visibili sono più facili da analizzare e aggirare. Ora i prompt segnalati ricadranno apertamente su Claude Opus 4.8, lo stesso percorso usato per richieste di cyber e biologia, e presto le API restituiranno un motivo chiaro per ogni rifiuto.
Also Read: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows
I ricercatori respingono la “sabotage segreta”
Le critiche si sono concentrate sulla segretezza stessa, non sui limiti sottostanti. Anthropic aveva presentato il freno come un’estensione delle condizioni che vietano di usare Claude per costruire sistemi concorrenti, sostenendo che un’applicazione silenziosa impediva ai peggiori trasgressori di avvantaggiarsi. Dean Ball, senior fellow alla Foundation for American Innovation, ha definito la tattica “secret sabotage” e ha affermato che rafforza l’idea che parte dello sforzo di sicurezza serva in realtà a proteggere gli interessi commerciali.
L’espressione si è diffusa rapidamente.
Altri si sono concentrati sull’asimmetria incorporata nella regola stessa. Anthropic manteneva Fable 5 alla massima potenza per il proprio staff mentre limitava i team esterni, una distinzione che ha irritato sia i sostenitori dell’open source sia storici alleati del movimento per la sicurezza. Jeremy Howard di Fast AI ha affermato che il laboratorio si era impegnato a indebolire i rivali che ci provavano, mentre Nathan Lambert di AI2 ha definito il downgrade segreto sconvolgente e anti-scientifico.
Lo scontro ha coronato una prima settimana difficile per Fable 5, un modello che Anthropic in passato aveva giudicato troppo rischioso persino da distribuire. Il laboratorio ha autorizzato il sistema all’uso pubblico questa settimana, circa una settimana dopo aver presentato in via confidenziale la documentazione per l’IPO, scommettendo che barriere più rigorose e meglio comunicate possano mantenere le sue capacità di individuare vulnerabilità in mani sicure.
Read Next: OpenAI Targets Anthropic With Price Cuts Ahead Of A Pivotal IPO





