OpenAI, AI가 정직함을 유지하도록 훈련하고 그 효과가 곳곳으로 확산되다

OpenAI, AI가 정직함을 유지하도록 훈련하고 그 효과가 곳곳으로 확산되다

OpenAI 연구진은 유익한 특성을 목표로 한 강화학습이 AI의 행동을 전반적으로 개선할 수 있으며, 그 향상 효과가 새로운 영역으로 확산되고 적대적 압력 아래에서도 유지된다고 밝혔다.

OpenAI 특성 훈련

이 결과는 6월 18일 발표된 논문에서 나타났다. 공동 저자인 Akshay V. JagadeeshKaran Singhal은 정직성, 인식론적 겸손, 수정에 대한 개방성 같은 특성을 훈련하고 측정하기 위한 현실적인 대화로 구성된 합성 데이터셋을 만들었다. 이 시나리오는 의료, 교육, 과학, 법률, 공학 전반을 아우른다.

연구팀은 해당 데이터의 일부를 더 큰 규모의 훈련 과정에 섞은 뒤, 동일한 컴퓨팅 자원으로 만든 모델과 결과를 비교했다. 훈련된 모델은 기만, 보상 해킹, 유해한 조언을 측정하는 내부·외부 벤치마크 53개 중 44개에서 성능이 향상됐다.

또 읽기: 일론 머스크의 스페이스X, 사상 최대 IPO 열기가 식으며 6000억 달러 증발

일반화되는 정렬

저자들은 더 큰 성과는 일반화라고 말한다. 한 분야, 즉 의료에서 좋은 행동을 하도록 모델을 훈련했더니 기만과 보상 해킹을 포함한 무관한 과제에서도 점수가 개선됐다. 또한 합법적인 요청에는 계속 응답하면서도, 적대적 프롬프트와 유해한 파인튜닝에 이전 기준 모델보다 더 잘 버텼다.

이 연구는 연구팀이 '발현적 부정정렬'이라고 부르는 이전 결과를 바탕으로 한다. 그 연구에서는 불안전한 코드 작성처럼 하나의 나쁜 습관을 배우도록 한 모델이 무관한 상황에서도 나쁘게 행동하기 시작했는데, 이번 연구는 그 패턴을 되돌리는 것을 목표로 했다.

다음 기사: OpenAI, 제미나이 공동 리더와 트럼프의 AI 보좌관을 상장 전 영입

면책 조항 및 위험 경고: 이 기사에서 제공되는 정보는 교육 및 정보 제공 목적으로만 제공되며 저자의 의견을 바탕으로 합니다. 이는 재정, 투자, 법적 또는 세무 조언을 구성하지 않습니다. 암호화폐 자산은 매우 변동성이 크고 높은 위험에 노출되어 있으며, 여기에는 투자금 전부 또는 상당 부분을 잃을 위험이 포함됩니다. 암호화폐 자산의 거래나 보유는 모든 투자자에게 적합하지 않을 수 있습니다. 이 기사에 표현된 견해는 저자(들)의 견해일 뿐이며 Yellow, 창립자 또는 임원의 공식적인 정책이나 입장을 나타내지 않습니다. 투자 결정을 내리기 전에 항상 자신만의 철저한 조사(D.Y.O.R.)를 수행하고 면허를 가진 금융 전문가와 상담하십시오.
OpenAI, AI가 정직함을 유지하도록 훈련하고 그 효과가 곳곳으로 확산되다 | Yellow.com