OpenAI leert AI eerlijk te blijven, en het effect verspreidt zich overal

OpenAI leert AI eerlijk te blijven, en het effect verspreidt zich overal

Onderzoekers van OpenAI zeggen dat reinforcement learning gericht op positieve eigenschappen het AI-gedrag breed kan verbeteren, met winst die zich uitbreidt naar nieuwe domeinen en standhoudt onder tegenstrijdige druk.

OpenAI-eigenschapstraining

De bevindingen verschijnen in een paper gepubliceerd op 18 juni. De corresponderende auteurs, Akshay V. Jagadeesh en Karan Singhal, bouwden een synthetische dataset met realistische gesprekken om eigenschappen zoals eerlijkheid, epistemische nederigheid en openheid voor correctie te trainen en meten. De scenario's bestrijken zorg, onderwijs, wetenschap, recht en techniek.

Het team mengde een klein deel van die data in een bredere trainingsronde en vergeleek het resultaat vervolgens met modellen die met dezelfde rekenkracht waren gebouwd. Het getrainde model verbeterde op 44 van de 53 interne en externe benchmarks die bedrog, reward hacking en schadelijk advies meten.

Ook lezen: SpaceX van Elon Musk wist $600 miljard uit nu record-IPOhype afkoelt

Afstemming die generaliseert

Het grotere resultaat, zeggen de auteurs, is generalisatie. Het trainen van het model op goed gedrag in één domein, gezondheid, verbeterde de scores op niet-gerelateerde taken, waaronder bedrog en reward hacking. Het weerstond ook beter dan de basisversie tegen vijandige prompts en schadelijke fine-tuning, terwijl het responsief bleef op legitieme verzoeken.

Het werk bouwt voort op eerdere bevindingen die het team emergente misafstemming noemt. In dat onderzoek begonnen modellen die één slechte gewoonte leerden, zoals het schrijven van onveilige code, zich slecht te gedragen in niet-gerelateerde contexten; een patroon dat deze studie wilde omkeren.

Lees verder: OpenAI haalt Gemini-coleider en AI-adviseur van Trump binnen vóór de beursgang

Disclaimer en risicowaarschuwing: De informatie in dit artikel is uitsluitend voor educatieve en informatieve doeleinden en is gebaseerd op de mening van de auteur. Het vormt geen financieel, investerings-, juridisch of belastingadvies. Cryptocurrency-assets zijn zeer volatiel en onderhevig aan hoog risico, inclusief het risico om uw gehele of een substantieel deel van uw investering te verliezen. Het handelen in of aanhouden van crypto-assets is mogelijk niet geschikt voor alle beleggers. De meningen die in dit artikel worden geuit zijn uitsluitend die van de auteur(s) en vertegenwoordigen niet het officiële beleid of standpunt van Yellow, haar oprichters of haar leidinggevenden. Voer altijd uw eigen grondig onderzoek uit (D.Y.O.R.) en raadpleeg een gelicentieerde financiële professional voordat u een investeringsbeslissing neemt.