OpenAI обучает ИИ оставаться честным, и эффект распространяется повсюду

Исследователи из OpenAI заявляют, что обучение с подкреплением, нацеленное на полезные качества, может широко улучшать поведение ИИ, причем улучшения переносятся на новые области и сохраняются под давлением враждебных атак.

Обучение качествам в OpenAI

Результаты представлены в статье опубликованной 18 июня. Ее соавторы для переписки, Akshay V. Jagadeesh и Karan Singhal, создали синтетический набор данных реалистичных разговоров, предназначенный для обучения и оценки таких качеств, как честность, эпистемическая скромность и готовность к исправлению. Сценарии охватывают здравоохранение, образование, науку, право и инженерию.

Команда добавила небольшую долю этих данных в более широкий цикл обучения, а затем сравнила результат с моделями, созданными при сопоставимых вычислительных затратах. Обученная модель улучшила показатели по 44 из 53 внутренних и внешних бенчмарков, измеряющих обман, взлом вознаграждения и вредные советы.

Также читайте: SpaceX Илона Маска обнуляет $600 млрд, поскольку рекордная мания IPO идет на спад

Обобщающее выравнивание

По словам авторов, главный результат — это обобщение. Обучение модели хорошему поведению в одной области, здравоохранении, улучшило ее результаты и в несвязанных задачах, включая обман и взлом вознаграждения. Она также лучше противостояла враждебным запросам и вредной донастройке, оставаясь при этом отзывчивой к законным запросам.

Работа опирается на более ранние выводы, которые команда называет возникающей рассогласованностью. В том исследовании модели, которым прививали одну плохую привычку, например написание небезопасного кода, начинали вести себя плохо и в несвязанных ситуациях — этот шаблон данное исследование стремилось обратить вспять.

Читать далее: OpenAI переманивает со-руководителя Gemini и помощника Трампа по ИИ перед IPO