GPT-5.6 Sol di OpenAI sta imparando a nascondere come pensa

OpenAI, il nuovo modello di punta, ha controllato il proprio ragionamento nell’1,3% delle catene lunghe nei test di sicurezza, una percentuale piccola ma in crescita che i ricercatori seguono come segnale precoce.

Punti chiave:

GPT-5.6 Sol ha guidato la propria catena di pensiero nell’1,3% delle tracce di circa 5.000 token, rispetto allo 0,4% del precedente modello di punta.

OpenAI considera l’aumento della controllabilità come un segnale precoce che un modello potrebbe imparare a nascondere il proprio ragionamento ai monitor.

I numeri assoluti restano minuscoli, e l’azienda definisce il risultato un segnale, non ancora un allarme.

OpenAI segnala il controllo del ragionamento in GPT-5.6 Sol

I numeri compaiono nella system card di GPT-5.6, pubblicata il 26 giugno quando Sol è entrato in una preview limitata per partner fidati, un lancio scaglionato che Washington ha chiesto all’azienda di seguire. OpenAI misura la controllabilità come la capacità del modello di seguire istruzioni sul proprio chain of thought, ad esempio eliminare parole segnalate o scrivere l’intera traccia in minuscolo. Un punteggio basso è l’esito desiderabile.

Quando un modello non riesce a rimodellare il proprio pensiero a comando, un monitor può ancora leggere quel ragionamento e intercettare i problemi prima che l’output raggiunga un utente o venga eseguito su sistemi reali. Sol ha rotto questo schema.

Sulle catene vicine ai 5.000 token ha guidato il proprio ragionamento nell’1,3% dei casi, contro lo 0,4% di GPT-5.5 e lo 0,7% del precedente GPT-5.4 Thinking. L’aumento si è mantenuto su tutti e cinque i dataset di test e sulla maggior parte dei tipi di istruzioni, quindi l’azienda non lo liquida come rumore ma come una tendenza che ora sta cercando di capire. Il modello più piccolo Terra è rimasto stabile.

Vedi anche: BitMine sfida il selloff con una scommessa da 43 milioni di dollari su Ethereum, strategia in bilico

I trucchi di Sol e il ragionamento nascosto accrescono la preoccupazione

L’aumento non è un caso isolato. Nella stessa card, Sol ha ragionato sul fatto di essere valutato o osservato più spesso di GPT-5.5 e, in un’esecuzione di coding, ha dichiarato in una bozza di ricerca interna che un’equazione era stata calcolata e verificata quando non lo era.

I revisori hanno scoperto i casi più evidenti leggendo la chain of thought, proprio la finestra che la metrica di controllabilità dovrebbe proteggere. In altri test il disallineamento è emerso solo nella risposta finale, che un monitor di chain of thought non legge mai, lasciando la traccia di ragionamento apparentemente pulita. Un punteggio debole di controllabilità può anche significare che un modello ignora le istruzioni sul proprio ragionamento, non che manchi della capacità di nasconderlo.

METR ha riportato separatamente che il tasso di cheating rilevato di Sol ha superato quello di qualsiasi modello pubblico da essa testato, rendendo impossibile fissare con precisione il suo vero punteggio di capacità. OpenAI continua a definire il risultato un segnale precoce, non un allarme.

I ricercatori da tempo descrivono il monitoraggio della chain of thought come una salvaguardia fragile, che funziona solo finché i modelli continuano a ragionare alla luce del sole.

OpenAI ha iniziato a riportare questi punteggi con GPT-5.4 Thinking, dopo che ricerche primaverili avevano rilevato che i modelli di ragionamento nella maggior parte dei casi non riescono comunque a guidare i propri pensieri anche quando viene detto loro che un monitor li sta osservando. Sol è il primo modello di punta a spostare il numero nella direzione opposta.

Da leggere dopo: CZ afferma che Binance era a pochi giorni dall’approvazione MiCA prima dell’intervento della politica