OpenAI addestra l’IA a restare onesta, e l’effetto si diffonde ovunque

OpenAI addestra l’IA a restare onesta, e l’effetto si diffonde ovunque

I ricercatori di OpenAI affermano che il reinforcement learning mirato a tratti benefici può migliorare in modo ampio il comportamento dell’IA, con benefici che si estendono a nuovi domini e resistono alla pressione avversaria.

Addestramento dei tratti di OpenAI

I risultati compaiono in un articolo pubblicato il 18 giu. I coautori di corrispondenza, Akshay V. Jagadeesh e Karan Singhal, hanno costruito un dataset sintetico di conversazioni realistiche pensato per addestrare e misurare tratti come onestà, umiltà epistemica e apertura alla correzione. Gli scenari coprono salute, istruzione, scienza, diritto e ingegneria.

Il team ha mescolato una piccola quota di quei dati in un addestramento più ampio, quindi ha confrontato il risultato con modelli costruiti con lo stesso livello di compute. Il modello addestrato è migliorato in 44 dei 53 benchmark interni ed esterni che misurano inganno, reward hacking e consigli dannosi.

Leggi anche: Il SpaceX di Elon Musk azzera 600 miliardi di dollari mentre la mania per le IPO da record rallenta

Un allineamento che si generalizza

Il risultato più importante, affermano gli autori, è la generalizzazione. Addestrare il modello a un comportamento corretto in un singolo dominio, la salute, ha migliorato i suoi punteggi in compiti non correlati, inclusi inganno e reward hacking. Ha anche resistito meglio ai prompt avversari e al fine-tuning dannoso rispetto alla baseline, pur rimanendo reattivo alle richieste legittime.

Il lavoro si basa su risultati precedenti che il team definisce disallineamento emergente. In quella ricerca, modelli istruiti a imparare una singola cattiva abitudine, come scrivere codice insicuro, hanno iniziato a comportarsi male in contesti non correlati, un modello che questo studio mirava a invertire.

Leggi dopo: OpenAI si assicura il co-responsabile di Gemini e il consulente IA di Trump prima dell’IPO

Disclaimer e avvertenza sui rischi: Le informazioni fornite in questo articolo sono solo per scopi educativi e informativi e sono basate sull'opinione dell'autore. Non costituiscono consulenza finanziaria, di investimento, legale o fiscale. Gli asset di criptovaluta sono altamente volatili e soggetti ad alto rischio, incluso il rischio di perdere tutto o una parte sostanziale del tuo investimento. Il trading o il possesso di asset crypto potrebbe non essere adatto a tutti gli investitori. Le opinioni espresse in questo articolo sono esclusivamente quelle dell'autore/autori e non rappresentano la politica ufficiale o la posizione di Yellow, dei suoi fondatori o dei suoi dirigenti. Conduci sempre la tua ricerca approfondita (D.Y.O.R.) e consulta un professionista finanziario autorizzato prima di prendere qualsiasi decisione di investimento.