Yellow.com

Дослідники з OpenAI кажуть, що навчання з підкріпленням, спрямоване на корисні риси, може широко покращити поведінку ШІ, а здобуті переваги поширюються на нові сфери та зберігаються під ворожим тиском.

Навчання рисам в OpenAI

Результати описані в статті опублікованій 18 червня. Її співавтори для листування, Akshay V. Jagadeesh і Karan Singhal, створили синтетичний набір даних реалістичних розмов, призначений для навчання й вимірювання таких рис, як чесність, епістемічна скромність і відкритість до виправлення. Сценарії охоплюють медицину, освіту, науку, право та інженерію.

Команда додала невелику частку цих даних до ширшого навчального прогону, а потім порівняла результат із моделями, створеними за зіставних обчислювальних витрат. Навчена модель покращилася у 44 з 53 внутрішніх і зовнішніх бенчмарків, що вимірюють обман, хакінг винагород і шкідливі поради.

Також читайте: Компанія Ілона Маска SpaceX втрачає $600 млрд, коли рекордна IPO-манія охолоджується

Вирівнювання, що узагальнюється

Більший результат, кажуть автори, — це узагальнення. Навчання моделі хорошій поведінці в одній сфері, охороні здоров’я, покращило її показники в незв’язаних завданнях, зокрема щодо обману та хакінгу винагород. Вона також краще протистояла ворожим підказкам і шкідливому донавчанню, ніж базова версія, залишаючись водночас чутливою до легітимних запитів.

Робота спирається на попередні висновки, які команда називає emergent misalignment. У тому дослідженні моделі, яким прищепили одну шкідливу звичку, наприклад написання небезпечного коду, починали поводитися погано й в інших, не пов’язаних ситуаціях — саме цю закономірність це дослідження прагнуло змінити.

Читайте далі: OpenAI перехоплює співкерівника Gemini та AI-помічника Трампа перед IPO

Alexey Bondarev

Олексій Бондарєв — керівник контенту в Yellow.com, який висвітлює криптовалютну тематику вже 10 років. Він спеціалізується на поглиблених матеріалах формату Research та Learn, зосереджених на аналітичній подачі, галузевому контексті та глобальних силах, що формують крипторинок — від епохи штучного інтелекту й технологій безпеки до фінтех-інновацій. Він переконаний, що все цифрове незабаром остаточно переважить усе аналогове, і наполегливо працює, щоб це стало реальністю.

OpenAI вчить ШІ залишатися чесним, і цей ефект поширюється всюди

Навчання рисам в OpenAI

Вирівнювання, що узагальнюється

Alexey Bondarev