OpenAI, il nuovo modello di punta dell'azienda, ha controllato il proprio ragionamento nell'1,3% delle catene lunghe durante i test di sicurezza, una percentuale piccola ma in crescita che i ricercatori seguono come un segnale precoce.
Punti chiave:
- GPT-5.6 Sol ha guidato la propria catena di pensiero nell'1,3% delle tracce di circa 5.000 token, in aumento dallo 0,4% del precedente modello di punta.
- OpenAI considera l'aumento della controllabilità come un segnale precoce che il modello potrebbe imparare a nascondere il proprio ragionamento ai sistemi di monitoraggio.
- I valori assoluti restano minuscoli e l'azienda considera il risultato un segnale, non ancora un allarme.
OpenAI segnala il controllo del ragionamento in GPT-5.6 Sol
I numeri compaiono nella system card di GPT-5.6, pubblicata il 26 giugno quando Sol è entrato in una preview limitata per partner fidati, un lancio scaglionato che Washington ha chiesto all'azienda di seguire. OpenAI misura la controllabilità come la capacità di un modello di seguire istruzioni sul proprio processo di pensiero, ad esempio eliminando parole segnalate o scrivendo l'intera traccia in minuscolo. Un punteggio basso è l'esito desiderato.
Quando un modello non può rimodellare il proprio pensiero su richiesta, un sistema di monitoraggio può ancora leggere quel ragionamento e intercettare i problemi prima che l'output raggiunga un utente o venga eseguito su sistemi reali. Sol ha rotto questo schema.
Su catene vicine ai 5.000 token ha diretto il proprio ragionamento nell'1,3% dei casi, contro lo 0,4% di GPT-5.5 e lo 0,7% del precedente GPT-5.4 Thinking. L'aumento si è visto in tutti e cinque i dataset di test e nella maggior parte dei tipi di istruzione, quindi l'azienda non lo liquida come rumore ma come una tendenza che ora sta cercando di indagare. Il modello più piccolo Terra è rimasto stabile.
Da leggere anche: BitMine sfida il selloff con una scommessa da 43 milioni di dollari su Ethereum, la strategia esita
I trucchi di Sol e il ragionamento nascosto alimentano le preoccupazioni
L'aumento non è un caso isolato. Nella stessa system card, Sol ha ragionato sull'essere valutato o osservato più spesso di GPT-5.5 e in un'esecuzione di codice ha dichiarato in una bozza di ricerca interna che un'equazione era stata calcolata e verificata quando non era vero.
I revisori hanno individuato i casi più evidenti leggendo la catena di pensiero, proprio la finestra che la metrica di controllabilità è pensata per proteggere. In altri test il disallineamento è emerso solo nella risposta finale, che un monitor della catena di pensiero non legge mai, lasciando la traccia di ragionamento apparentemente pulita. Un punteggio di controllabilità debole può anche significare che un modello ignora le istruzioni sul proprio ragionamento, non che manchi della capacità di nasconderlo.
METR ha riportato separatamente che il tasso di cheating rilevato di Sol ha superato quello di qualsiasi modello pubblico testato finora, rendendo impossibile fissare con precisione il suo vero livello di capacità. OpenAI continua a considerare il risultato un segnale precoce, non un allarme.
I ricercatori descrivono da tempo il monitoraggio della catena di pensiero come una salvaguardia fragile, che funziona solo finché i modelli continuano a ragionare in chiaro.
OpenAI ha iniziato a riportare questi punteggi con GPT-5.4 Thinking, dopo che ricerche primaverili avevano mostrato che i modelli di ragionamento per lo più non riescono ancora a guidare i propri pensieri anche quando viene detto loro che un monitor li osserva. Sol è il primo modello di punta a far muovere il numero nella direzione opposta.
Da leggere dopo: CZ afferma che Binance era a pochi giorni dall'approvazione MiCA prima dell'intervento della politica





