Дослідники з OpenAI кажуть, що навчання з підкріпленням, спрямоване на корисні риси, може широко покращити поведінку ШІ, а здобуті переваги поширюються на нові сфери та зберігаються під ворожим тиском.
Навчання рисам в OpenAI
Результати описані в статті опублікованій 18 червня. Її співавтори для листування, Akshay V. Jagadeesh і Karan Singhal, створили синтетичний набір даних реалістичних розмов, призначений для навчання й вимірювання таких рис, як чесність, епістемічна скромність і відкритість до виправлення. Сценарії охоплюють медицину, освіту, науку, право та інженерію.
Команда додала невелику частку цих даних до ширшого навчального прогону, а потім порівняла результат із моделями, створеними за зіставних обчислювальних витрат. Навчена модель покращилася у 44 з 53 внутрішніх і зовнішніх бенчмарків, що вимірюють обман, хакінг винагород і шкідливі поради.
Також читайте: Компанія Ілона Маска SpaceX втрачає $600 млрд, коли рекордна IPO-манія охолоджується
Вирівнювання, що узагальнюється
Більший результат, кажуть автори, — це узагальнення. Навчання моделі хорошій поведінці в одній сфері, охороні здоров’я, покращило її показники в незв’язаних завданнях, зокрема щодо обману та хакінгу винагород. Вона також краще протистояла ворожим підказкам і шкідливому донавчанню, ніж базова версія, залишаючись водночас чутливою до легітимних запитів.
Робота спирається на попередні висновки, які команда називає emergent misalignment. У тому дослідженні моделі, яким прищепили одну шкідливу звичку, наприклад написання небезпечного коду, починали поводитися погано й в інших, не пов’язаних ситуаціях — саме цю закономірність це дослідження прагнуло змінити.
Читайте далі: OpenAI перехоплює співкерівника Gemini та AI-помічника Трампа перед IPO





