Anthropic annulla la regola di Claude Fable 5 che indeboliva i risultati per i ricercatori rivali di IA

Anthropic sta annullando una Claude Fable 5 policy che degradava segretamente i risultati per i ricercatori che costruiscono sistemi di IA rivali, una restrizione che l’azienda ha dichiarato interessare solo lo 0,03% del traffico.

Punti chiave:

Anthropic ha fatto marcia indietro su una policy di Fable 5 che indeboliva silenziosamente le risposte per la ricerca di frontiera sull’IA.

Il limite non dichiarato era nascosto in una system card di 319 pagine e non prevedeva alcuna notifica per l’utente.

Le richieste contrassegnate verranno ora reindirizzate apertamente a Claude Opus 4.8, con il motivo mostrato ogni volta.

Revoca delle limitazioni di Claude Fable 5

L’azienda ha confermato il cambiamento a Wired questa settimana, che ha riportato per prima la retromarcia dopo giorni di crescente indignazione tra ricercatori, sviluppatori e analisti di policy online. Il passo indietro arriva dopo il lancio di martedì di Fable 5, il primo Mythos-class model di Anthropic disponibile pubblicamente, un sistema che il laboratorio aveva a lungo trattenuto a causa della sua maggiore abilità nel trovare vulnerabilità software. Nel giro di poche ore dal rilascio, gli utenti hanno notato che reindirizzava silenziosamente o indeboliva le sue risposte su una ristretta fascia di lavori avanzati sull’IA.

Questi compiti coprivano l’addestramento di modelli concorrenti, il debug di codice di IA e la messa a punto di reti neurali, tutti segnalati tramite un paragrafo nascosto in una system card di 319 pagine. Invece di bloccarli apertamente, Fable 5 si basava su modifiche nascoste ai prompt e vettori di guida per attenuare silenziosamente le sue risposte, una limitazione che Anthropic ha stimato nello 0,03% del traffico.

La correzione mantiene la salvaguardia ma elimina la segretezza che aveva suscitato le critiche più dure. Anthropic aveva difeso la versione nascosta sostenendo che regole visibili sono più facili da analizzare e aggirare. Ora i prompt contrassegnati verranno reindirizzati apertamente a Claude Opus 4.8, lo stesso percorso utilizzato per le richieste in ambito cyber e biologico, e l’API presto restituirà un motivo chiaro per ogni rifiuto.

Also Read: Cardano Whales Roar Back To Life As ADA Tests Multi-Year Lows

I ricercatori rifiutano il sabotaggio segreto

Le critiche si sono concentrate sulla segretezza in sé, non sui limiti sottostanti. Anthropic aveva descritto la limitazione come un’estensione dei termini che vietano di usare Claude per costruire sistemi rivali, affermando che un’applicazione silenziosa impediva ai peggiori trasgressori di guadagnare terreno. Dean Ball, senior fellow alla Foundation for American Innovation, ha definito la tattica “sabotaggio segreto” e ha detto che rafforza l’idea che parti dello sforzo di safety servano soprattutto a proteggere interessi commerciali.

L’espressione si è diffusa rapidamente.

Altri si sono concentrati sull’asimmetria insita nella regola stessa. Anthropic manteneva Fable 5 alla massima potenza per il proprio personale mentre limitava i team esterni, una disparità che ha irritato sia i sostenitori dell’open source sia alleati di lunga data nel campo della safety. Jeremy Howard di Fast AI ha affermato che il laboratorio aveva promesso di mettere i bastoni tra le ruote ai rivali che ci provassero, mentre Nathan Lambert di AI2 ha definito il downgrade occulto sconvolgente e anti-scientifico.

Lo scontro ha coronato una prima settimana difficile per Fable 5, un modello che Anthropic in passato aveva giudicato troppo rischioso persino da distribuire. L’azienda ne ha autorizzato l’uso pubblico questa settimana, circa una settimana dopo aver presentato in via confidenziale la documentazione per l’IPO, scommettendo che barriere più strette e meglio dichiarate possano mantenere le sue capacità di individuare vulnerabilità in mani sicure.