플랫폼 라이브

yellow bottom left star road

지금 시작하기

OpenAI, AI가 정직함을 유지하도록 훈련하고 그 효과가 곳곳으로 확산되다

Alexey BondarevJun, 20 2026 4:50

#앤트로픽 #인공지능

OpenAI, AI가 정직함을 유지하도록 훈련하고 그 효과가 곳곳으로 확산되다

OpenAI 연구진은 유익한 특성을 목표로 한 강화학습이 AI의 행동을 전반적으로 개선할 수 있으며, 그 향상 효과가 새로운 영역으로 확산되고 적대적 압력 아래에서도 유지된다고 밝혔다.

OpenAI 특성 훈련

이 결과는 6월 18일 발표된 논문에서 나타났다. 공동 저자인 Akshay V. Jagadeesh와 Karan Singhal은 정직성, 인식론적 겸손, 수정에 대한 개방성 같은 특성을 훈련하고 측정하기 위한 현실적인 대화로 구성된 합성 데이터셋을 만들었다. 이 시나리오는 의료, 교육, 과학, 법률, 공학 전반을 아우른다.

연구팀은 해당 데이터의 일부를 더 큰 규모의 훈련 과정에 섞은 뒤, 동일한 컴퓨팅 자원으로 만든 모델과 결과를 비교했다. 훈련된 모델은 기만, 보상 해킹, 유해한 조언을 측정하는 내부·외부 벤치마크 53개 중 44개에서 성능이 향상됐다.

또 읽기: 일론 머스크의 스페이스X, 사상 최대 IPO 열기가 식으며 6000억 달러 증발

일반화되는 정렬

저자들은 더 큰 성과는 일반화라고 말한다. 한 분야, 즉 의료에서 좋은 행동을 하도록 모델을 훈련했더니 기만과 보상 해킹을 포함한 무관한 과제에서도 점수가 개선됐다. 또한 합법적인 요청에는 계속 응답하면서도, 적대적 프롬프트와 유해한 파인튜닝에 이전 기준 모델보다 더 잘 버텼다.

이 연구는 연구팀이 '발현적 부정정렬'이라고 부르는 이전 결과를 바탕으로 한다. 그 연구에서는 불안전한 코드 작성처럼 하나의 나쁜 습관을 배우도록 한 모델이 무관한 상황에서도 나쁘게 행동하기 시작했는데, 이번 연구는 그 패턴을 되돌리는 것을 목표로 했다.

다음 기사: OpenAI, 제미나이 공동 리더와 트럼프의 AI 보좌관을 상장 전 영입

면책 조항 및 위험 경고: 이 기사에서 제공되는 정보는 교육 및 정보 제공 목적으로만 제공되며 저자의 의견을 바탕으로 합니다. 이는 재정, 투자, 법적 또는 세무 조언을 구성하지 않습니다. 암호화폐 자산은 매우 변동성이 크고 높은 위험에 노출되어 있으며, 여기에는 투자금 전부 또는 상당 부분을 잃을 위험이 포함됩니다. 암호화폐 자산의 거래나 보유는 모든 투자자에게 적합하지 않을 수 있습니다. 이 기사에 표현된 견해는 저자(들)의 견해일 뿐이며 Yellow, 창립자 또는 임원의 공식적인 정책이나 입장을 나타내지 않습니다. 투자 결정을 내리기 전에 항상 자신만의 철저한 조사(D.Y.O.R.)를 수행하고 면허를 가진 금융 전문가와 상담하십시오.

관련 뉴스

Kimi가 60% 평가 인식을 기록한 뒤에도 AI 안전성 테스트를 믿을 수 있을까?

중국 AI 모델이 안전성 평가를 알아보고 답변을 바꾸는 현상이 관측되며, 기존 사전 안전성 검증의 신뢰성이 흔들리고 있다.

OpenAI, 제미니 공동 리드와 트럼프 정부 AI 보좌관 영입…상장 앞두고 인재 확보

OpenAI가 Google 제미니 공동 리드 노암 샤지어와 전 트럼프 백악관 AI 보좌관 딘 볼을 영입하며 상장을 앞두고 기술·정책 전선을 동시에 보강했다.

OpenAI, 프롬프트 인젝션 공격 차단 위한 ‘락다운 모드’ 출시

OpenAI가 민감 정보 보호용 보안 기능 ‘락다운 모드’를 출시해 프롬프트 인젝션 공격 대응을 강화했다.

OpenAI, 정부가 출시 전에 자사 AI를 시험하도록 허용하기로 합의

OpenAI가 미국 정부에 강력한 AI 모델을 출시 30일 전에 제공해 안전성 시험을 허용하는 자발적 틀에 동의했다는 내용이다.

OpenAI, 앤트로픽·스페이스X와 함께 8,520억 달러 IPO 경쟁 합류

ChatGPT 개발사 OpenAI가 미국에 비공개 IPO 서류를 제출해 앤트로픽·스페이스X와 함께 3파전 상장 경쟁에 돌입했다.

관련 연구 기사

42개 주가 이미 오픈AI를 조사하는 가운데 월가는 IPO를 주시한다

8,520억 달러 IPO 신청 직후 42개 주가 오픈AI에 AI 안전·데이터 기록을 요구하며 대규모 조사를 개시, 상장 일정과 가치에 불확실성 증대.

AI 기반 암호화폐 거래: 암호화폐 뉴스를 투자 전략으로 전환하는 방법

암호화폐 시장은 뉴스와 온라인 열기에 의해 급속도로 움직입니다. 트위터 한 개나 헤드라인 뉴스가 가격을 급상승시키거나 급락시킬 수 있습니다.

아무도 예상하지 못한 27억 달러 규모의 탈중앙화 AI 마켓을 만든 Bittensor

Bittensor는 AI 모델이 토큰 보상을 받는 탈중앙화 AI 마켓이다. 64개 서브넷과 비트코인 유사 토크노믹스로 빠르게 성장하며 Web3·AI 접점을 확장 중이다.

밈코인 이후, AI 토큰이 다음 대형 크립토 트렌드가 될까?

AI 토큰이 인프라 수요와 기관 자금 유입을 바탕으로 밈코인과 경쟁 구도로 부상했지만, 에이전트 토큰 붕괴로 투기 거품 논란도 커지고 있다.

AI를 활용한 데이 트레이딩: ChatGPT와 Grok으로 더 똑똑한 크립토 결정 내리기

AI는 크립토 데이 트레이딩에서 매우 빠른 분석과 정보에 기반한 결정을 내리는 데 도움을 줄 수 있습니다.

관련 학습 기사

암호화폐에서 AI 에이전트의 부상: 금융 혁명이 펼쳐진다

AI 에이전트와 암호화폐의 융합이 금융을 혁신하고 있으며, 블록체인의 분산된 인프라와 함께 자율적인 의사결정을 병합하고 있습니다.

AI 주식 트레이딩 봇 사용법: 무료 도구와 실제 위험

노코드 AI 트레이딩 봇은 초보자에게 자동매매를 열어주지만, 대부분은 단순 규칙 실행 엔진일 뿐이다. 백테스트 과신과 사기 리스크에 주의해야 한다.

분산형 AI는 정말 프롬프트를 프라이버시로 지킬 수 있을까?

프라이버시 특화 분산형 AI 네트워크가 노드·암호 기술·온체인 결제를 활용해 프롬프트 노출 없이 추론을 제공하는 방식을 설명한다.

AI 도구를 활용한 암호화폐 투자 연구 방법: 2025 완벽 가이드

AI로 암호화폐 연구 혁신. 잠재력 있는 매매 기법으로 성공 사례 다수. 이 종합 가이드는 고급 전략과 ...

2025년의 암호화폐 AI 거래 봇: 거래 자동화에 대한 종합 가이드

AI 거래 봇에 대한 필요성이 급격히 증가하고 있습니다. 특히, 포스트 선거 비트코인 가격 급등과 증가된 시장 변동성 덕분에.

OpenAI, AI가 정직함을 유지하도록 훈련하고 그 효과가 곳곳으로 확산되다 | Yellow.com