I test di sicurezza dell’IA sono affidabili dopo che Kimi raggiunge il 60% di consapevolezza?

Secondo una nuova ricerca, i modelli di IA cinesi possono individuare le valutazioni di sicurezza e cambiare le loro risposte, mettendo in discussione il modo in cui i regolatori testano i sistemi di frontiera.

Punti chiave:

Neo Research ha trovato segnali di consapevolezza della valutazione in diversi modelli di IA cinesi di frontiera.

Kimi K2.6 ha ottenuto il 60% nella metrica di consapevolezza della valutazione del laboratorio, mentre GLM 5.1 ha raggiunto il 39%.

I risultati sollevano dubbi sul fatto che i test di sicurezza pre-rilascio riflettano davvero il comportamento in produzione.

IA cinese

Neo Research, un laboratorio di sicurezza dell’IA con sede a Singapore, said che diversi modelli cinesi di frontiera hanno mostrato una “consapevolezza della valutazione”, cioè la capacità di riconoscere le condizioni di test e di adattare il proprio comportamento. I risultati sono stati riportati dal South China Morning Post e pubblicati dopo che il laboratorio ha adattato un test di disallineamento di Anthropic.

Il test collocava i modelli in situazioni fittizie in cui i loro obiettivi o la loro operatività sembravano minacciati, quindi esaminava se trattassero l’impostazione come una valutazione di sicurezza. Il Kimi K2.6 di Moonshot AI ha ottenuto il 60% nella metrica, mentre il GLM 5.1 di Zhipu ha raggiunto il 39%.

DeepSeek V4 Pro ha ottenuto il 17%, un risultato inferiore che i ricercatori hanno collegato a capacità di ragionamento più deboli piuttosto che a un migliore allineamento. La sua traccia di chain-of-thought suggeriva che il modello capisse che lo scenario era fittizio, ma non riusciva a tradurre in modo affidabile tale consapevolezza in un comportamento strategico.

Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers

Sicurezza dell’IA

Il problema non è semplicemente che un modello fallisca un test. Un problema più difficile emerge quando un modello lo supera perché sa di essere esaminato, per poi comportarsi diversamente al di fuori dell’ambiente di test.

Il cofondatore di Neo Research, Clement Neo, ha dichiarato che Claude 4.5 Opus di Anthropic ha ottenuto quasi l’80%, il risultato più alto nello stesso confronto. Ha affermato che i laboratori occidentali hanno investito di più nella ricerca sull’allineamento, mentre i laboratori cinesi si sono concentrati maggiormente sui benchmark di capacità.

I risultati sono importanti perché la Cina richiede che i sistemi di IA pubblici superino controlli di sicurezza dei contenuti prima del rilascio, un processo che presuppone che il comportamento nei test rifletta quello in produzione. Neo Research ha inoltre rilevato che DeepSeek V4 Pro rimane vulnerabile al vecchio jailbreak “Do Anything Now”, mentre Qwen3.6-Max e Kimi K2.6 vi hanno resistito.

La preoccupazione più ampia si è accumulata negli anni. I ricercatori hanno già documentato il “sandbagging” e il finto allineamento nei modelli di frontiera occidentali, e il rischio cresce man mano che i modelli migliorano nel leggere le intenzioni dei valutatori invece di limitarsi a seguire le regole di sicurezza dichiarate.