Yellow.com

Исследователи из OpenAI заявляют, что обучение с подкреплением, нацеленное на полезные качества, может широко улучшать поведение ИИ, причем улучшения переносятся на новые области и сохраняются под давлением враждебных атак.

Обучение качествам в OpenAI

Результаты представлены в статье опубликованной 18 июня. Ее соавторы для переписки, Akshay V. Jagadeesh и Karan Singhal, создали синтетический набор данных реалистичных разговоров, предназначенный для обучения и оценки таких качеств, как честность, эпистемическая скромность и готовность к исправлению. Сценарии охватывают здравоохранение, образование, науку, право и инженерию.

Команда добавила небольшую долю этих данных в более широкий цикл обучения, а затем сравнила результат с моделями, созданными при сопоставимых вычислительных затратах. Обученная модель улучшила показатели по 44 из 53 внутренних и внешних бенчмарков, измеряющих обман, взлом вознаграждения и вредные советы.

Также читайте: SpaceX Илона Маска обнуляет $600 млрд, поскольку рекордная мания IPO идет на спад

Обобщающее выравнивание

По словам авторов, главный результат — это обобщение. Обучение модели хорошему поведению в одной области, здравоохранении, улучшило ее результаты и в несвязанных задачах, включая обман и взлом вознаграждения. Она также лучше противостояла враждебным запросам и вредной донастройке, оставаясь при этом отзывчивой к законным запросам.

Работа опирается на более ранние выводы, которые команда называет возникающей рассогласованностью. В том исследовании модели, которым прививали одну плохую привычку, например написание небезопасного кода, начинали вести себя плохо и в несвязанных ситуациях — этот шаблон данное исследование стремилось обратить вспять.

Читать далее: OpenAI переманивает со-руководителя Gemini и помощника Трампа по ИИ перед IPO

Alexey Bondarev

Алексей Бондарев — руководитель отдела контента в Yellow.com, освещающий мир криптовалют на протяжении последних 10 лет. Он специализируется на глубоких исследовательских материалах и обучающих статьях с упором на аналитическую подачу, отраслевой контекст и глобальные силы, формирующие крипторынок — от эры искусственного интеллекта и технологий безопасности до инноваций в финтехе. Он убеждён, что всё цифровое в скором времени окончательно превзойдёт всё аналоговое, и усердно работает над тем, чтобы это стало реальностью.

OpenAI обучает ИИ оставаться честным, и эффект распространяется повсюду

Обучение качествам в OpenAI

Обобщающее выравнивание

Alexey Bondarev