La ricerca Cisco mostra che i modelli di frontiera di IA falliscono sotto attacchi multi-turno

Il team di threat intelligence per l’IA di Cisco ha valutato 15 modelli chiusi di punta di OpenAI, Anthropic, Google, Amazon e xAI, rilevando che sequenze di attacchi multi-turno hanno raggiunto tassi di elusione della sicurezza fino all’88%.

According to the Cisco research blog, i risultati contraddicono le affermazioni di sicurezza basate su benchmark a singolo prompt, che i ricercatori descrivono come strutturalmente inadeguati per valutare il rischio nel mondo reale.

Cosa ha testato Cisco

Il team ha progettato sequenze di attacco che distribuiscono una richiesta dannosa su più turni di conversazione invece di formularla in un unico prompt.

Questo approccio sfrutta il modo in cui i modelli gestiscono l’accumulo di contesto.

Un modello può rifiutare una singola richiesta chiaramente dannosa. Lo stesso modello può invece acconsentire quando quella richiesta viene scomposta in passaggi incrementali lungo uno scambio più lungo.

Cisco ha testato tutti e 15 i modelli utilizzando questa metodologia. Nessun modello si è dimostrato immune. I tassi di successo sono variati, ma ogni modello nello studio ha fallito oltre una certa soglia di sofisticazione dell’attacco.

I ricercatori non hanno pubblicato nel post sul blog pubblico i punteggi dei singoli modelli. Hanno identificato l’88% come il più alto tasso di successo osservato nello studio.

Contesto

Le valutazioni standard di sicurezza dell’IA si sono basate su benchmark a singolo turno almeno dal 2020. Piattaforme come MLCommons e red team di terze parti in genere inviano un solo prompt e valutano se il modello rifiuta. Questo approccio è diventato il riferimento per le discussioni regolatorie nell’ambito dell’AI Act dell’UE e dell’ordine esecutivo sull’IA dell’era Biden, che citavano entrambi le prestazioni ai benchmark come segnale di conformità. La ricerca di Cisco si aggiunge a un crescente corpus di lavori che mette in dubbio che benchmark statici riflettano le condizioni di utilizzo reale.

Una precedente storia di Yellow.com ha spiegato come (see prior Yellow coverage) anche se gli strumenti di sicurezza non tengono il passo con la crescita delle capacità.

Cosa significano i risultati

I risultati di Cisco hanno implicazioni dirette per le implementazioni aziendali. Le aziende che hanno concesso in licenza modelli di frontiera sulla base dei punteggi di sicurezza pubblicati dai fornitori potrebbero operare sotto un falso senso di protezione.

Lo studio non invoca alcuna risposta regolatoria specifica. I ricercatori raccomandano che le valutazioni di sicurezza includano test avversari multi-turno come requisito di base.

OpenAI, Anthropic e Google non hanno risposto pubblicamente ai risultati di Cisco prima della pubblicazione di questo rapporto. Non è stata annunciata alcuna patch o aggiornamento dei modelli in relazione alla ricerca.