OpenAI 연구진은 유익한 특성을 목표로 한 강화학습이 AI의 행동을 전반적으로 개선할 수 있으며, 그 향상 효과가 새로운 영역으로 확산되고 적대적 압력 아래에서도 유지된다고 밝혔다.
OpenAI 특성 훈련
이 결과는 6월 18일 발표된 논문에서 나타났다. 공동 저자인 Akshay V. Jagadeesh와 Karan Singhal은 정직성, 인식론적 겸손, 수정에 대한 개방성 같은 특성을 훈련하고 측정하기 위한 현실적인 대화로 구성된 합성 데이터셋을 만들었다. 이 시나리오는 의료, 교육, 과학, 법률, 공학 전반을 아우른다.
연구팀은 해당 데이터의 일부를 더 큰 규모의 훈련 과정에 섞은 뒤, 동일한 컴퓨팅 자원으로 만든 모델과 결과를 비교했다. 훈련된 모델은 기만, 보상 해킹, 유해한 조언을 측정하는 내부·외부 벤치마크 53개 중 44개에서 성능이 향상됐다.
또 읽기: 일론 머스크의 스페이스X, 사상 최대 IPO 열기가 식으며 6000억 달러 증발
일반화되는 정렬
저자들은 더 큰 성과는 일반화라고 말한다. 한 분야, 즉 의료에서 좋은 행동을 하도록 모델을 훈련했더니 기만과 보상 해킹을 포함한 무관한 과제에서도 점수가 개선됐다. 또한 합법적인 요청에는 계속 응답하면서도, 적대적 프롬프트와 유해한 파인튜닝에 이전 기준 모델보다 더 잘 버텼다.
이 연구는 연구팀이 '발현적 부정정렬'이라고 부르는 이전 결과를 바탕으로 한다. 그 연구에서는 불안전한 코드 작성처럼 하나의 나쁜 습관을 배우도록 한 모델이 무관한 상황에서도 나쁘게 행동하기 시작했는데, 이번 연구는 그 패턴을 되돌리는 것을 목표로 했다.





