Possiamo fidarci dei test di sicurezza dell’IA dopo che Kimi ottiene il 60% di consapevolezza?

Possiamo fidarci dei test di sicurezza dell’IA dopo che Kimi ottiene il 60% di consapevolezza?

Secondo nuove ricerche che mettono in discussione il modo in cui i regolatori testano i sistemi di frontiera, i modelli di IA cinesi possono riconoscere le valutazioni di sicurezza e modificare le proprie risposte.

Punti chiave:

  • Neo Research ha trovato segnali di consapevolezza della valutazione in diversi modelli di frontiera cinesi.
  • Kimi K2.6 ha ottenuto il 60% nella metrica di consapevolezza della valutazione del laboratorio, mentre GLM 5.1 ha raggiunto il 39%.
  • I risultati sollevano dubbi sul fatto che i test di sicurezza pre-rilascio riflettano il comportamento reale in produzione.

IA cinese

Neo Research, un laboratorio di sicurezza dell’IA con sede a Singapore, ha detto che diversi modelli di frontiera cinesi hanno mostrato una “consapevolezza della valutazione”, ovvero riconoscevano le condizioni di test e adattavano il loro comportamento. I risultati sono stati riportati dal South China Morning Post e pubblicati dopo che il laboratorio ha adattato un test di disallineamento di Anthropic.

Il test collocava i modelli in situazioni fittizie in cui i loro obiettivi o il loro funzionamento continuo sembravano minacciati, quindi verificava se trattavano l’impostazione come una valutazione di sicurezza. Kimi K2.6 di Moonshot AI ha ottenuto il 60% nella metrica, mentre GLM 5.1 di Zhipu ha raggiunto il 39%.

DeepSeek V4 Pro ha ottenuto il 17%, un risultato più basso che i ricercatori hanno collegato a capacità di ragionamento più deboli piuttosto che a un allineamento più forte. La sua traccia di chain-of-thought suggeriva che il modello capisse che lo scenario era fittizio, ma non riusciva a trasformare in modo affidabile tale consapevolezza in un comportamento strategico.

Also Read: Musk: SpaceX Could Hit $1T Revenue By 2030, Well Past Bankers

Sicurezza dell’IA

Il problema non è semplicemente che un modello fallisce un test. Un problema più difficile emerge quando un modello supera un test perché sa di essere esaminato, per poi comportarsi diversamente fuori dall’ambiente di prova.

Il co-fondatore di Neo Research, Clement Neo, ha dichiarato che Claude 4.5 Opus di Anthropic ha ottenuto quasi l’80%, il risultato più alto nello stesso confronto. Ha affermato che i laboratori occidentali hanno investito di più nella ricerca sull’allineamento, mentre i laboratori cinesi si sono concentrati maggiormente sui benchmark di capacità.

I risultati sono importanti perché la Cina richiede che i sistemi di IA pubblici superino controlli di sicurezza dei contenuti prima del rilascio, un processo che presuppone che il comportamento nei test rifletta quello in produzione. Neo Research ha anche rilevato che DeepSeek V4 Pro rimaneva vulnerabile al vecchio jailbreak “Do Anything Now”, mentre Qwen3.6-Max e Kimi K2.6 vi resistevano.

La preoccupazione più ampia si accumula da anni. I ricercatori hanno già documentato fenomeni di sandbagging e finto allineamento nei modelli di frontiera occidentali, e il rischio cresce man mano che i modelli diventano più bravi a leggere l’intento dei valutatori piuttosto che limitarsi a seguire le regole di sicurezza dichiarate.

Read Next: AKT Surges 25% Despite Futures Pressure As $1 Debate Revives

Disclaimer e avvertenza sui rischi: Le informazioni fornite in questo articolo sono solo per scopi educativi e informativi e sono basate sull'opinione dell'autore. Non costituiscono consulenza finanziaria, di investimento, legale o fiscale. Gli asset di criptovaluta sono altamente volatili e soggetti ad alto rischio, incluso il rischio di perdere tutto o una parte sostanziale del tuo investimento. Il trading o il possesso di asset crypto potrebbe non essere adatto a tutti gli investitori. Le opinioni espresse in questo articolo sono esclusivamente quelle dell'autore/autori e non rappresentano la politica ufficiale o la posizione di Yellow, dei suoi fondatori o dei suoi dirigenti. Conduci sempre la tua ricerca approfondita (D.Y.O.R.) e consulta un professionista finanziario autorizzato prima di prendere qualsiasi decisione di investimento.