I ricercatori di OpenAI affermano che il reinforcement learning mirato a tratti benefici può migliorare in modo ampio il comportamento dell’IA, con benefici che si estendono a nuovi domini e resistono alla pressione avversaria.
Addestramento dei tratti di OpenAI
I risultati compaiono in un articolo pubblicato il 18 giu. I coautori di corrispondenza, Akshay V. Jagadeesh e Karan Singhal, hanno costruito un dataset sintetico di conversazioni realistiche pensato per addestrare e misurare tratti come onestà, umiltà epistemica e apertura alla correzione. Gli scenari coprono salute, istruzione, scienza, diritto e ingegneria.
Il team ha mescolato una piccola quota di quei dati in un addestramento più ampio, quindi ha confrontato il risultato con modelli costruiti con lo stesso livello di compute. Il modello addestrato è migliorato in 44 dei 53 benchmark interni ed esterni che misurano inganno, reward hacking e consigli dannosi.
Leggi anche: Il SpaceX di Elon Musk azzera 600 miliardi di dollari mentre la mania per le IPO da record rallenta
Un allineamento che si generalizza
Il risultato più importante, affermano gli autori, è la generalizzazione. Addestrare il modello a un comportamento corretto in un singolo dominio, la salute, ha migliorato i suoi punteggi in compiti non correlati, inclusi inganno e reward hacking. Ha anche resistito meglio ai prompt avversari e al fine-tuning dannoso rispetto alla baseline, pur rimanendo reattivo alle richieste legittime.
Il lavoro si basa su risultati precedenti che il team definisce disallineamento emergente. In quella ricerca, modelli istruiti a imparare una singola cattiva abitudine, come scrivere codice insicuro, hanno iniziato a comportarsi male in contesti non correlati, un modello che questo studio mirava a invertire.
Leggi dopo: OpenAI si assicura il co-responsabile di Gemini e il consulente IA di Trump prima dell’IPO





