OpenAI обучает ИИ оставаться честным, и эффект распространяется повсюду

OpenAI обучает ИИ оставаться честным, и эффект распространяется повсюду

Исследователи из OpenAI заявляют, что обучение с подкреплением, нацеленное на полезные качества, может широко улучшать поведение ИИ, причем улучшения переносятся на новые области и сохраняются под давлением враждебных атак.

Обучение качествам в OpenAI

Результаты представлены в статье опубликованной 18 июня. Ее соавторы для переписки, Akshay V. Jagadeesh и Karan Singhal, создали синтетический набор данных реалистичных разговоров, предназначенный для обучения и оценки таких качеств, как честность, эпистемическая скромность и готовность к исправлению. Сценарии охватывают здравоохранение, образование, науку, право и инженерию.

Команда добавила небольшую долю этих данных в более широкий цикл обучения, а затем сравнила результат с моделями, созданными при сопоставимых вычислительных затратах. Обученная модель улучшила показатели по 44 из 53 внутренних и внешних бенчмарков, измеряющих обман, взлом вознаграждения и вредные советы.

Также читайте: SpaceX Илона Маска обнуляет $600 млрд, поскольку рекордная мания IPO идет на спад

Обобщающее выравнивание

По словам авторов, главный результат — это обобщение. Обучение модели хорошему поведению в одной области, здравоохранении, улучшило ее результаты и в несвязанных задачах, включая обман и взлом вознаграждения. Она также лучше противостояла враждебным запросам и вредной донастройке, оставаясь при этом отзывчивой к законным запросам.

Работа опирается на более ранние выводы, которые команда называет возникающей рассогласованностью. В том исследовании модели, которым прививали одну плохую привычку, например написание небезопасного кода, начинали вести себя плохо и в несвязанных ситуациях — этот шаблон данное исследование стремилось обратить вспять.

Читать далее: OpenAI переманивает со-руководителя Gemini и помощника Трампа по ИИ перед IPO

Отказ от ответственности и предупреждение о рисках: Информация, представленная в этой статье, предназначена только для образовательных и информационных целей и основана на мнении автора. Она не является финансовой, инвестиционной, юридической или налоговой консультацией. Криптоактивы крайне волатильны и подвержены высоким рискам, включая риск потери всех или значительной части ваших инвестиций. Торговля или владение криптоактивами может не подходить для всех инвесторов. Мнения, выраженные в этой статье, принадлежат исключительно автору(ам) и не представляют официальную политику или позицию Yellow, её основателей или руководителей. Всегда проводите собственное тщательное исследование (D.Y.O.R.) и консультируйтесь с лицензированным финансовым специалистом перед принятием любых инвестиционных решений.
Последние новости
Показать все новости
Связанные Новости
Связанные исследовательские статьи
Связанные обучающие статьи
OpenAI обучает ИИ оставаться честным, и эффект распространяется повсюду | Yellow.com