OpenAI uczy AI, by zachowywała uczciwość, a efekt rozprzestrzenia się wszędzie

OpenAI uczy AI, by zachowywała uczciwość, a efekt rozprzestrzenia się wszędzie

Badacze z OpenAI twierdzą, że uczenie ze wzmocnieniem ukierunkowane na pożądane cechy może szeroko poprawiać zachowanie AI, a zyski przenoszą się na nowe dziedziny i utrzymują pod presją adversarialną.

Trening cech w OpenAI

Wyniki pojawiają się w pracy opublikowanej 18 czerwca. Jej autorzy do korespondencji, Akshay V. Jagadeesh i Karan Singhal, stworzyli syntetyczny zbiór danych realistycznych rozmów, mający służyć do trenowania i mierzenia cech takich jak uczciwość, epistemiczna pokora i otwartość na korektę. Scenariusze obejmują zdrowie, edukację, naukę, prawo i inżynierię.

Zespół włączył niewielką część tych danych do szerszego treningu, a następnie porównał wynik z modelami zbudowanymi przy takim samym nakładzie obliczeniowym. Wytrenowany model poprawił się w 44 z 53 wewnętrznych i zewnętrznych benchmarków mierzących oszukiwanie, hakowanie nagród i szkodliwe porady.

Czytaj także: SpaceX Muska wymazuje 600 mld dolarów wraz z ochłodzeniem rekordowej manii IPO

Zgodność, która się uogólnia

Najważniejszy wynik, jak twierdzą autorzy, to uogólnienie. Trening modelu na dobre zachowanie w jednej dziedzinie, zdrowiu, poprawił jego wyniki w niepowiązanych zadaniach, w tym w obszarach oszustw i hakowania nagród. Model lepiej opierał się też podpowiedziom adversarialnym i szkodliwemu dostrajaniu niż model bazowy, pozostając jednocześnie wrażliwy na uzasadnione prośby.

Praca opiera się na wcześniejszych ustaleniach, które zespół nazywa emergentnym niedopasowaniem. W tamtych badaniach modele uczone jednego złego nawyku, takiego jak pisanie niebezpiecznego kodu, zaczynały zachowywać się źle w niepowiązanych sytuacjach — i to zjawisko badanie to miało odwrócić.

Czytaj dalej: OpenAI pozyskuje współlidera Gemini i doradcę AI Trumpa przed IPO

Zastrzeżenie i ostrzeżenie o ryzyku: Informacje zawarte w tym artykule służą wyłącznie celom edukacyjnym i informacyjnym i opierają się na opinii autora. Nie stanowią one porad finansowych, inwestycyjnych, prawnych czy podatkowych. Aktywa kryptowalutowe są bardzo zmienne i podlegają wysokiemu ryzyku, w tym ryzyku utraty całości lub znacznej części Twojej inwestycji. Handel lub posiadanie aktywów krypto może nie być odpowiednie dla wszystkich inwestorów. Poglądy wyrażone w tym artykule są wyłącznie poglądami autora/autorów i nie reprezentują oficjalnej polityki lub stanowiska Yellow, jej założycieli lub dyrektorów. Zawsze przeprowadź własne dokładne badania (D.Y.O.R.) i skonsultuj się z licencjonowanym specjalistą finansowym przed podjęciem jakiejkolwiek decyzji inwestycyjnej.
OpenAI uczy AI, by zachowywała uczciwość, a efekt rozprzestrzenia się wszędzie | Yellow.com