OpenAI вчить ШІ залишатися чесним, і цей ефект поширюється всюди

OpenAI вчить ШІ залишатися чесним, і цей ефект поширюється всюди

Дослідники з OpenAI кажуть, що навчання з підкріпленням, спрямоване на корисні риси, може широко покращити поведінку ШІ, а здобуті переваги поширюються на нові сфери та зберігаються під ворожим тиском.

Навчання рисам в OpenAI

Результати описані в статті опублікованій 18 червня. Її співавтори для листування, Akshay V. Jagadeesh і Karan Singhal, створили синтетичний набір даних реалістичних розмов, призначений для навчання й вимірювання таких рис, як чесність, епістемічна скромність і відкритість до виправлення. Сценарії охоплюють медицину, освіту, науку, право та інженерію.

Команда додала невелику частку цих даних до ширшого навчального прогону, а потім порівняла результат із моделями, створеними за зіставних обчислювальних витрат. Навчена модель покращилася у 44 з 53 внутрішніх і зовнішніх бенчмарків, що вимірюють обман, хакінг винагород і шкідливі поради.

Також читайте: Компанія Ілона Маска SpaceX втрачає $600 млрд, коли рекордна IPO-манія охолоджується

Вирівнювання, що узагальнюється

Більший результат, кажуть автори, — це узагальнення. Навчання моделі хорошій поведінці в одній сфері, охороні здоров’я, покращило її показники в незв’язаних завданнях, зокрема щодо обману та хакінгу винагород. Вона також краще протистояла ворожим підказкам і шкідливому донавчанню, ніж базова версія, залишаючись водночас чутливою до легітимних запитів.

Робота спирається на попередні висновки, які команда називає emergent misalignment. У тому дослідженні моделі, яким прищепили одну шкідливу звичку, наприклад написання небезпечного коду, починали поводитися погано й в інших, не пов’язаних ситуаціях — саме цю закономірність це дослідження прагнуло змінити.

Читайте далі: OpenAI перехоплює співкерівника Gemini та AI-помічника Трампа перед IPO

Відмова від відповідальності та попередження про ризики: Інформація, надана в цій статті, призначена лише для освітніх та інформаційних цілей і базується на думці автора. Вона не є фінансовою, інвестиційною, правовою чи податковою консультацією. Криптоактиви є надзвичайно волатильними та піддаються високому ризику, включаючи ризик втрати всіх або значної частини ваших інвестицій. Торгівля або утримання криптоактивів може не підходити для всіх інвесторів. Думки, висловлені в цій статті, належать виключно автору(ам) і не представляють офіційну політику чи позицію Yellow, її засновників або керівників. Завжди проводьте власне ретельне дослідження (D.Y.O.R.) та консультуйтесь з ліцензованим фінансовим фахівцем перед прийняттям будь-яких інвестиційних рішень.
Схожі новини
Схожі дослідницькі статті
Схожі навчальні матеріали
OpenAI вчить ШІ залишатися чесним, і цей ефект поширюється всюди | Yellow.com