Yellow.com

OpenAI 연구진은 유익한 특성을 목표로 한 강화학습이 AI의 행동을 전반적으로 개선할 수 있으며, 그 향상 효과가 새로운 영역으로 확산되고 적대적 압력 아래에서도 유지된다고 밝혔다.

OpenAI 특성 훈련

이 결과는 6월 18일 발표된 논문에서 나타났다. 공동 저자인 Akshay V. Jagadeesh와 Karan Singhal은 정직성, 인식론적 겸손, 수정에 대한 개방성 같은 특성을 훈련하고 측정하기 위한 현실적인 대화로 구성된 합성 데이터셋을 만들었다. 이 시나리오는 의료, 교육, 과학, 법률, 공학 전반을 아우른다.

연구팀은 해당 데이터의 일부를 더 큰 규모의 훈련 과정에 섞은 뒤, 동일한 컴퓨팅 자원으로 만든 모델과 결과를 비교했다. 훈련된 모델은 기만, 보상 해킹, 유해한 조언을 측정하는 내부·외부 벤치마크 53개 중 44개에서 성능이 향상됐다.

또 읽기: 일론 머스크의 스페이스X, 사상 최대 IPO 열기가 식으며 6000억 달러 증발

일반화되는 정렬

저자들은 더 큰 성과는 일반화라고 말한다. 한 분야, 즉 의료에서 좋은 행동을 하도록 모델을 훈련했더니 기만과 보상 해킹을 포함한 무관한 과제에서도 점수가 개선됐다. 또한 합법적인 요청에는 계속 응답하면서도, 적대적 프롬프트와 유해한 파인튜닝에 이전 기준 모델보다 더 잘 버텼다.

이 연구는 연구팀이 '발현적 부정정렬'이라고 부르는 이전 결과를 바탕으로 한다. 그 연구에서는 불안전한 코드 작성처럼 하나의 나쁜 습관을 배우도록 한 모델이 무관한 상황에서도 나쁘게 행동하기 시작했는데, 이번 연구는 그 패턴을 되돌리는 것을 목표로 했다.

다음 기사: OpenAI, 제미나이 공동 리더와 트럼프의 AI 보좌관을 상장 전 영입

Alexey Bondarev

Alexey Bondarev는 Yellow.com의 콘텐츠 책임자로, 지난 10년 동안 암호화폐 분야를 취재해 왔습니다. 그는 심층적인 Research와 Learn 콘텐츠를 전문으로 하며, 분석형 보도, 업계 맥락, 그리고 AI 시대와 보안 기술부터 핀테크 혁신에 이르기까지 암호화폐를 형성하는 더 큰 동인들에 초점을 맞추고 있습니다. 그는 모든 디지털이 곧 모든 아날로그를 앞지르게 될 것이라 믿으며, 그것을 현실로 만들기 위해 꾸준히 노력하고 있습니다.

OpenAI, AI가 정직함을 유지하도록 훈련하고 그 효과가 곳곳으로 확산되다

OpenAI 특성 훈련

일반화되는 정렬

Alexey Bondarev