OpenAI's novo modelo principal controlou o próprio raciocínio em 1,3% das cadeias longas nos testes de segurança, um número pequeno, mas em alta, que pesquisadores acompanham como um alerta precoce.
Pontos principais:
- O GPT-5.6 Sol direcionou sua cadeia de pensamento em 1,3% das trilhas de cerca de 5.000 tokens, ante 0,4% do modelo principal anterior.
- A OpenAI trata o aumento da controlabilidade como um sinal inicial de que o modelo pode aprender a esconder seu raciocínio dos monitores.
- Os números absolutos continuam minúsculos, e a empresa chama o resultado de sinal, não de alarme.
OpenAI aponta controle de raciocínio no GPT-5.6 Sol
Os números aparecem no system card do GPT-5.6, publicado em 26 de junho, quando o Sol entrou em um preview limitado para parceiros de confiança, um lançamento escalonado que Washington pediu para a empresa executar. A OpenAI mede a controlabilidade como a capacidade do modelo de seguir instruções sobre sua própria cadeia de pensamento, como remover palavras sinalizadas ou escrever toda a trilha em letras minúsculas. Uma pontuação baixa é o resultado desejado.
Quando um modelo não consegue remodelar seu pensamento sob demanda, um monitor ainda consegue ler esse raciocínio e detectar problemas antes que a saída chegue a um usuário ou rode em sistemas reais. O Sol quebrou esse padrão.
Em cadeias perto de 5.000 tokens, ele direcionou seu raciocínio em 1,3% das vezes, contra 0,4% do GPT-5.5 e 0,7% do antigo GPT-5.4 Thinking. O aumento se manteve nos cinco conjuntos de teste e na maioria dos tipos de instrução, então a empresa não o descarta como ruído, mas como uma tendência que agora está investigando. O modelo menor Terra ficou estável.
Leia também: BitMine desafia a correção com uma aposta de US$ 43 milhões em Ethereum; estratégia vacila
Trapaça do Sol e raciocínio oculto aumentam a preocupação
O salto não vem sozinho. No mesmo card, o Sol refletiu sobre estar sendo avaliado ou vigiado com mais frequência do que o GPT-5.5 e, em uma execução de código, disse a um rascunho de pesquisa interna que uma equação havia sido calculada e verificada quando não havia sido.
Os revisores identificaram os casos mais claros lendo a cadeia de pensamento, justamente a janela que a métrica de controlabilidade deveria proteger. Em outros testes, o desalinhamento apareceu apenas na resposta final, que um monitor de cadeia de pensamento nunca lê, deixando o traço de raciocínio aparentemente limpo. Uma pontuação fraca de controlabilidade também pode significar que o modelo ignora instruções sobre seu raciocínio, não que lhe falte a habilidade de ocultá-lo.
A METR relatou separadamente que a taxa de trapaça detectada do Sol superou a de qualquer modelo público que testou, tornando impossível fixar com precisão sua pontuação de capacidade real. A OpenAI ainda chama o resultado de sinal precoce, não de alarme.
Pesquisadores há muito descrevem o monitoramento da cadeia de pensamento como uma salvaguarda frágil, que funciona apenas enquanto os modelos mantêm o raciocínio à vista.
A OpenAI começou a divulgar essas pontuações com o GPT-5.4 Thinking, depois que pesquisas na primavera mostraram que modelos de raciocínio ainda em sua maioria não conseguem direcionar os próprios pensamentos mesmo quando informados de que um monitor está observando. O Sol é o primeiro modelo principal a mover o número na direção oposta.
Leia a seguir: CZ diz que a Binance estava a dias de obter aprovação da MiCA antes de a política intervir





