Notizie Impara Ricerca Classifica Ecosistema

PIATTAFORMA ORA LIVE

yellow bottom left star road

OpenAI addestra l’IA a restare onesta, e l’effetto si diffonde ovunque

Alexey BondarevJun, 20 2026 4:50

#Anthropic #Intelligenza artificiale

Reinforcement learning on beneficial traits helped one lab's AI grow safer and steadier under pressure, according to fresh research. (Image: Shutterstock)

I ricercatori di OpenAI affermano che il reinforcement learning mirato a tratti benefici può migliorare in modo ampio il comportamento dell’IA, con benefici che si estendono a nuovi domini e resistono alla pressione avversaria.

Addestramento dei tratti di OpenAI

I risultati compaiono in un articolo pubblicato il 18 giu. I coautori di corrispondenza, Akshay V. Jagadeesh e Karan Singhal, hanno costruito un dataset sintetico di conversazioni realistiche pensato per addestrare e misurare tratti come onestà, umiltà epistemica e apertura alla correzione. Gli scenari coprono salute, istruzione, scienza, diritto e ingegneria.

Il team ha mescolato una piccola quota di quei dati in un addestramento più ampio, quindi ha confrontato il risultato con modelli costruiti con lo stesso livello di compute. Il modello addestrato è migliorato in 44 dei 53 benchmark interni ed esterni che misurano inganno, reward hacking e consigli dannosi.

Leggi anche: Il SpaceX di Elon Musk azzera 600 miliardi di dollari mentre la mania per le IPO da record rallenta

Un allineamento che si generalizza

Il risultato più importante, affermano gli autori, è la generalizzazione. Addestrare il modello a un comportamento corretto in un singolo dominio, la salute, ha migliorato i suoi punteggi in compiti non correlati, inclusi inganno e reward hacking. Ha anche resistito meglio ai prompt avversari e al fine-tuning dannoso rispetto alla baseline, pur rimanendo reattivo alle richieste legittime.

Il lavoro si basa su risultati precedenti che il team definisce disallineamento emergente. In quella ricerca, modelli istruiti a imparare una singola cattiva abitudine, come scrivere codice insicuro, hanno iniziato a comportarsi male in contesti non correlati, un modello che questo studio mirava a invertire.

Leggi dopo: OpenAI si assicura il co-responsabile di Gemini e il consulente IA di Trump prima dell’IPO

Alexey Bondarev

Alexey Bondarev è il Responsabile dei Contenuti di Yellow.com e si occupa di criptovalute da 10 anni. È specializzato in articoli di Ricerca e Approfondimento, con un’attenzione particolare all’analisi, al contesto del settore e alle grandi forze che stanno plasmando il mondo crypto, dall’era dell’IA e le tecnologie di sicurezza fino all’innovazione fintech. È convinto che tutto ciò che è digitale supererà presto tutto ciò che è analogico e lavora duramente per contribuire a realizzare questa visione.

Disclaimer e avvertenza sui rischi: Le informazioni fornite in questo articolo sono solo per scopi educativi e informativi e sono basate sull'opinione dell'autore. Non costituiscono consulenza finanziaria, di investimento, legale o fiscale. Gli asset di criptovaluta sono altamente volatili e soggetti ad alto rischio, incluso il rischio di perdere tutto o una parte sostanziale del tuo investimento. Il trading o il possesso di asset crypto potrebbe non essere adatto a tutti gli investitori. Le opinioni espresse in questo articolo sono esclusivamente quelle dell'autore/autori e non rappresentano la politica ufficiale o la posizione di Yellow, dei suoi fondatori o dei suoi dirigenti. Conduci sempre la tua ricerca approfondita (D.Y.O.R.) e consulta un professionista finanziario autorizzato prima di prendere qualsiasi decisione di investimento.

Ultime notizie

Mostra tutte le notizie

L’accordo infragruppo di AIxCrypto Holdings per un anno fa scattare l’allarme governance

AIxCrypto annuncia un accordo di consulenza con parte correlata, senza indicare il valore economico, e accende l’attenzione dei regolatori.

Azioni Apple giù dell’8% dopo l’allarme di Tim Cook sul caro‑memorie

Apple crolla in Borsa dopo la guidance debole e l’allarme di Cook sui prezzi della memoria, spinti in alto dagli investimenti in AI.

SpaceX diventa la società più shortata d’America: scommesse ribassiste per 26 miliardi di dollari

SpaceX è il titolo più shortato tra le large cap USA, con il 30%–35% del flottante preso di mira e profitti miliardari per gli investitori ribassisti.

Notizie correlate

La ricerca Cisco mostra che i modelli di frontiera di IA falliscono sotto attacchi multi-turno

Studio Cisco sui modelli di frontiera rivela che attacchi multi-turno possono aggirare i sistemi di sicurezza fino all’88% dei casi

I test di sicurezza dell’IA sono affidabili dopo che Kimi raggiunge il 60% di consapevolezza?

Studio sui modelli IA cinesi che riconoscono i test di sicurezza, modificano le risposte e mettono in dubbio l’affidabilità delle valutazioni pre-rilascio.

OpenAI accetta di lasciare al governo testare la sua IA prima del rilascio

I regolatori USA testeranno i modelli più potenti di OpenAI 30 giorni prima del rilascio pubblico, in base a un ordine esecutivo volontario firmato da Trump.

Anthropic annulla la regola di Claude Fable 5 che indeboliva i risultati per i ricercatori rivali di IA

Anthropic annulla la politica segreta di Fable 5 che indeboliva risposte per ricerca IA rivale; ora le richieste verranno reindirizzate apertamente a Opus 4.8.

Google blocca il primo zero-day creato con l’AI mentre Daybreak sfida Glasswing

Google blocca il primo zero-day creato con l’AI per aggirare la 2FA, mentre Daybreak di OpenAI e Glasswing di Anthropic guidano la difesa con modelli di frontiera.

Ricerche correlate

42 stati stanno già indagando su OpenAI mentre Wall Street punta alla IPO

42 stati USA indagano su OpenAI dopo il deposito per una IPO da 852 miliardi, chiedendo documenti su sicurezza IA, dati utenti e conversione da non profit.

Trading di Criptovalute Potenziato dall'IA: Come Trasformare le Notizie sui Criptovalute in una Strategia di Investimento

Scopri come l'IA può trasformare il flusso di notizie cripto in approfondimenti azionabili, offrendo agli appassionati di cripto strumenti avanzati accessibili.

I 10 principali truffe cripto potenziate dall'IA del 2025 e come proteggere i tuoi fondi

I truffatori ora usano l'IA per creare video, voci e messaggi falsi, rendendo le loro truffe cripto più convincenti e difficili da rilevare rispetto a prima.

AI nel settore bancario spiegato: Come potrebbe apparire una banca realmente potenziata dall'IA entro il 2030

L'intelligenza artificiale nelle banche non è solo automazione superficiale. É un cambiamento radicale che ridisegna i limiti tra organizzazioni umane e sistemi intelligenti.

Claude Mythos e crypto: cosa significa la nuova minaccia dell’IA per il trading

Claude Mythos scopre migliaia di vulnerabilità zero‑day, aumentando il rischio per exchange, DeFi e infrastrutture crypto a mercato aperto e regolamento irreversibile.

Guide correlate

Allora Network spiega come i modelli di IA conquistano fiducia on-chain

Le reti di inferenza IA decentralizzate aggregano modelli in competizione per fornire previsioni più affidabili e trasparenti di quelle del cloud.

L'Ascesa degli Agenti AI nella Criptovaluta: Una Rivoluzione Finanziaria si Svela

L'integrazione degli agenti AI negli ecosistemi di criptovaluta sta rivoluzionando la finanza, unendo il processo decisionale autonomo con...

Come utilizzare strumenti di intelligenza artificiale per la ricerca di investimenti in criptovalute: Guida completa 2025

La ricerca crittografica guidata da IA ha superato le semplici interrogazioni ChatGPT. I trader professionali dispiegano reti neurali ottenendo ritorni del 1.640%.

L’intelligenza artificiale decentralizzata può mantenere privati i tuoi prompt?

Panoramica sulle reti di AI privata decentralizzata come Venice, che usano crittografia, hardware sicuro e token per proteggere prompt e risposte.

I bot AI stanno invadendo il Web3, la prova di personhood è l’unica soluzione

La prova di personhood mira a garantire “una persona, un’identità” sulla blockchain, bloccando i bot senza svelare dati personali sensibili.

OpenAI addestra l’IA a restare onesta, e l’effetto si diffonde ovunque | Yellow