Il team di threat intelligence di Cisco dedicato all’IA ha valutato 15 modelli chiusi di punta di OpenAI, Anthropic, Google, Amazon e xAI, scoprendo che le sequenze di attacco multi-turno hanno raggiunto tassi di bypass delle misure di sicurezza fino all’88%.
According to the Cisco research blog, i risultati contraddicono le dichiarazioni sulla sicurezza basate su benchmark a singolo prompt, che i ricercatori descrivono come strutturalmente inadeguati per valutare il rischio nel mondo reale.
Cosa ha testato Cisco
Il team ha progettato sequenze di attacco che distribuiscono una richiesta dannosa su più turni di conversazione invece di emetterla in un unico prompt.
Questo approccio sfrutta il modo in cui i modelli gestiscono l’accumulo di contesto.
Un modello può rifiutare una singola richiesta chiaramente dannosa. Lo stesso modello può invece conformarsi quando quella richiesta viene suddivisa in passaggi incrementali lungo uno scambio più esteso.
Cisco ha testato tutti e 15 i modelli usando questa metodologia. Nessun modello si è dimostrato immune. I tassi di successo variavano, ma ogni modello nello studio è fallito oltre una certa soglia di sofisticazione dell’attacco.
I ricercatori non hanno pubblicato i punteggi dei singoli modelli nel post pubblico sul blog. Hanno indicato l’88% come il più alto tasso di successo osservato nello studio.
Contesto
Le valutazioni standard della sicurezza dell’IA si basano su benchmark a singolo turno almeno dal 2020. Piattaforme come MLCommons e red team di terze parti in genere inviano un solo prompt e valutano se il modello rifiuta. Questo approccio è diventato il punto di riferimento per le discussioni regolatorie nell’ambito dell’AI Act dell’UE e dell’ordine esecutivo sulla sicurezza dell’IA dell’era Biden, entrambi i quali hanno fatto riferimento alle prestazioni sui benchmark come indicatore di conformità. La ricerca di Cisco si aggiunge a un corpo crescente di lavori che mettono in dubbio che i benchmark statici riflettano le condizioni reali di utilizzo.
Un precedente articolo di Yellow.com ha trattato come (see prior Yellow coverage) anche se gli strumenti di sicurezza arrancano rispetto alla crescita delle capacità.
Cosa significano i risultati
I risultati di Cisco hanno implicazioni dirette per le implementazioni aziendali. Le aziende che hanno concesso in licenza modelli di frontiera basandosi sui punteggi di sicurezza pubblicati dai fornitori potrebbero operare con un falso senso di protezione.
Lo studio non invoca alcuna risposta regolatoria specifica. I ricercatori raccomandano che le valutazioni di sicurezza includano test avversari multi-turno come requisito di base.
OpenAI, Anthropic e Google non hanno risposto pubblicamente ai risultati di Cisco prima della pubblicazione di questo resoconto. Non è stata annunciata alcuna patch o aggiornamento dei modelli in relazione alla ricerca.
Leggi anche: Anthropic Cofounder Tells Pope AI Models Contain "Unsettling" Hidden Behaviors





