Badacze z OpenAI twierdzą, że uczenie ze wzmocnieniem ukierunkowane na pożądane cechy może szeroko poprawiać zachowanie AI, a zyski przenoszą się na nowe dziedziny i utrzymują pod presją adversarialną.
Trening cech w OpenAI
Wyniki pojawiają się w pracy opublikowanej 18 czerwca. Jej autorzy do korespondencji, Akshay V. Jagadeesh i Karan Singhal, stworzyli syntetyczny zbiór danych realistycznych rozmów, mający służyć do trenowania i mierzenia cech takich jak uczciwość, epistemiczna pokora i otwartość na korektę. Scenariusze obejmują zdrowie, edukację, naukę, prawo i inżynierię.
Zespół włączył niewielką część tych danych do szerszego treningu, a następnie porównał wynik z modelami zbudowanymi przy takim samym nakładzie obliczeniowym. Wytrenowany model poprawił się w 44 z 53 wewnętrznych i zewnętrznych benchmarków mierzących oszukiwanie, hakowanie nagród i szkodliwe porady.
Czytaj także: SpaceX Muska wymazuje 600 mld dolarów wraz z ochłodzeniem rekordowej manii IPO
Zgodność, która się uogólnia
Najważniejszy wynik, jak twierdzą autorzy, to uogólnienie. Trening modelu na dobre zachowanie w jednej dziedzinie, zdrowiu, poprawił jego wyniki w niepowiązanych zadaniach, w tym w obszarach oszustw i hakowania nagród. Model lepiej opierał się też podpowiedziom adversarialnym i szkodliwemu dostrajaniu niż model bazowy, pozostając jednocześnie wrażliwy na uzasadnione prośby.
Praca opiera się na wcześniejszych ustaleniach, które zespół nazywa emergentnym niedopasowaniem. W tamtych badaniach modele uczone jednego złego nawyku, takiego jak pisanie niebezpiecznego kodu, zaczynały zachowywać się źle w niepowiązanych sytuacjach — i to zjawisko badanie to miało odwrócić.
Czytaj dalej: OpenAI pozyskuje współlidera Gemini i doradcę AI Trumpa przed IPO





