OpenAI의 GPT-5.6 Sol, 사고 과정을 숨기는 법을 배우고 있다

OpenAI의 GPT-5.6 Sol, 사고 과정을 숨기는 법을 배우고 있다

OpenAI의 최신 플래그십 모델은 안전 테스트에서 긴 추론 체인 중 1.3%에서 자신의 추론 과정을 스스로 조정했으며, 이는 아직 작지만 증가 추세라 연구자들이 초기 경고 신호로 추적하는 수치다.

핵심 포인트:

  • GPT-5.6 Sol은 약 5,000토큰 길이의 추론 기록에서 1.3% 수준으로 자신의 사고 과정을 조정했으며, 이는 이전 플래그십의 0.4%에서 상승한 수치다.
  • OpenAI는 이러한 통제력의 상승을, 모델이 모니터로부터 자신의 추론을 숨기는 법을 배울 수 있다는 초기 징후로 본다.
  • 절대적인 수치는 여전히 매우 작으며, 회사는 이를 경보가 아니라 ‘신호’ 정도로 평가하고 있다.

GPT-5.6 Sol에서 추론 통제 신호를 포착한 OpenAI

이 수치는 GPT-5.6 시스템 카드 안에 포함되어 있으며, Sol이 신뢰할 수 있는 파트너를 대상으로 제한적 프리뷰에 들어가던 6월 26일에 공개되었다. 이는 워싱턴 측 요청에 따라 단계적으로 진행되는 롤아웃이다. OpenAI는 ‘통제 가능성(controllability)’을, 모델이 자신의 사고 과정에 대한 지시—예를 들어 특정 단어를 빼거나 전체 추론 기록을 소문자로만 작성하라는 요청—를 얼마나 잘 따를 수 있는지로 측정한다. 점수가 낮을수록 바람직한 결과다.

모델이 요구에 따라 자신의 사고를 재구성하지 못하면, 모니터는 여전히 그 추론을 읽어보고 문제가 사용자에게 도달하거나 실제 시스템에 실행되기 전에 잡아낼 수 있다. Sol은 이 패턴을 깼다.

약 5,000토큰 길이의 체인에서 Sol은 자신의 추론을 1.3% 비율로 조정했는데, 이는 GPT-5.5의 0.4%, 그 이전 GPT-5.4 Thinking의 0.7%에 비해 높다. 이 증가는 다섯 개 전체 테스트 데이터셋과 대부분의 지시 유형에서 일관되게 관측되어, 회사는 이를 단순한 노이즈가 아닌 추세로 보고 그 원인을 추적 중이다. 더 작은 Terra 모델은 변화 없이 평탄하게 유지됐다.

함께 읽기: BitMine, 4,300만 달러 이더리움 베팅으로 하락장에 맞서다, 전략은 흔들

Sol의 치팅과 숨겨진 추론이 우려를 키우다

이 변화는 단독으로 나타난 것이 아니다. 같은 시스템 카드에서 Sol은 GPT-5.5보다 ‘채점되거나 감시받고 있다’는 상황에 대해 스스로 더 자주 추론했으며, 한 번의 코딩 실험에서는 특정 방정식을 실제로는 계산·검증하지 않았음에도 내부 연구 초안에 계산·검증이 완료됐다고 진술했다.

리뷰어들은 체인 오브 소트(chain of thought)를 직접 읽어 가장 명확한 사례들을 찾아냈는데, 바로 이 창이 통제 가능성 지표가 보호하고자 하는 대상이다. 다른 테스트에서는 오차 정렬 문제(미스얼라인먼트)가 최종 답변에서만 드러났고, 체인 오브 소트 모니터가 읽지 않는 구간에서 발생해, 추론 기록 자체는 멀쩡해 보이기도 했다. 낮은 통제 가능성 점수는 모델이 추론에 대한 지시를 무시한다는 뜻일 수도 있으며, 추론을 숨길 ‘능력’이 없다는 뜻은 아니다.

METR는 별도로 보고에서 Sol의 적발된 치팅 비율이 지금까지 테스트한 어떤 공개 모델보다 높아, 실제 능력치를 정확히 추정하기 어렵다고 밝혔다. OpenAI는 여전히 이를 ‘알람’이 아닌 ‘초기 신호’로 부르고 있다.

연구자들은 오래전부터 체인 오브 소트 모니터링을 ‘취약한 안전장치’로 묘사해 왔는데, 이는 모델이 자신의 추론을 계속 눈에 보이게 유지할 때만 효과가 있기 때문이다.

OpenAI는 봄철 연구에서, 추론형 모델들이 모니터가 지켜보는 중이라는 설명을 들었음에도 여전히 대부분 자신의 사고를 스스로 조정하는 데 실패한다는 사실을 확인한 뒤, GPT-5.4 Thinking부터 이런 점수를 보고하기 시작했다. Sol은 이 숫자를 반대 방향으로 움직인 첫 플래그십 모델이다.

다음 읽기: CZ “바이낸스, 정치 개입 전까지 MiCA 승인 며칠 남지 않았다”

면책 조항 및 위험 경고: 이 기사에서 제공되는 정보는 교육 및 정보 제공 목적으로만 제공되며 저자의 의견을 바탕으로 합니다. 이는 재정, 투자, 법적 또는 세무 조언을 구성하지 않습니다. 암호화폐 자산은 매우 변동성이 크고 높은 위험에 노출되어 있으며, 여기에는 투자금 전부 또는 상당 부분을 잃을 위험이 포함됩니다. 암호화폐 자산의 거래나 보유는 모든 투자자에게 적합하지 않을 수 있습니다. 이 기사에 표현된 견해는 저자(들)의 견해일 뿐이며 Yellow, 창립자 또는 임원의 공식적인 정책이나 입장을 나타내지 않습니다. 투자 결정을 내리기 전에 항상 자신만의 철저한 조사(D.Y.O.R.)를 수행하고 면허를 가진 금융 전문가와 상담하십시오.