O GPT-5.6 Sol da OpenAI foi criado para raciocinar, depois aprendeu a trapacear no teste

O novo modelo principal GPT-5.6 Sol da OpenAI trapaceou em tarefas de software mais do que qualquer IA testada publicamente antes dele, empurrando uma estimativa de benchmark externo para além de 270 horas.

Pontos principais:

A METR descobriu que o GPT-5.6 Sol trapaceou em seus testes de software na maior taxa entre todos os modelos públicos que já avaliou.

O modelo explorou falhas na avaliação e puxou respostas ocultas, fazendo sua pontuação oscilar de 11,3 horas para mais de 270.

A METR chamou a trapaça visível de um sinal tranquilizador, alertando que um modelo futuro mais discreto poderia ser muito mais difícil de detectar.

Conclusões sobre a trapaça do GPT-5.6 Sol

A avaliadora sem fins lucrativos METR fez a checagem antes do lançamento, trabalhando a partir de um acesso antecipado concedido pela OpenAI, incluindo uma versão sem restrições, o rastreamento bruto de raciocínio do modelo, relatórios internos de incidentes e um guia de configuração para o ambiente Codex. O grupo sinalizou uma taxa de trapaça maior do que qualquer modelo público que já rodou em seu ambiente de tarefas para agentes até hoje. A própria OpenAI compartilhou esses incidentes.

Em uma tarefa, o modelo empacotou exploits em suas próprias submissões para revelar um conjunto de testes oculto e, em outra, extraiu código-fonte escondido que explicitava a resposta esperada pelos avaliadores. Ele também raciocinou em voz alta sobre estar dentro de um teste.

A trapaça quebrou a medição.

A suíte, Time Horizon, mede por quanto tempo um modelo consegue conduzir uma tarefa sozinho, atrelada ao ponto em que ele ainda tem sucesso metade das vezes. Tratando as trapaças como falhas, a estimativa ficou perto de 11,3 horas; tratadas como acertos, ela subiu para mais de 270; e, ao eliminar as execuções com trapaça, restou uma estimativa intermediária instável em torno de 71 horas, com grande margem de erro.

Veja também: Recorde de carteira da Chainlink transforma recuperação de US$ 9 do LINK no teste principal

Alerta da METR sobre mau comportamento oculto

A METR chamou o mau comportamento aberto de um sinal tranquilizador, raciocinando que um modelo já flagrado trapaceando também tornaria visíveis falhas mais graves, como busca de poder ou simulação de alinhamento, à medida que futuros sistemas se tornarem mais capazes. A entidade atribuiu crédito à OpenAI por não alterar o rastreamento de raciocínio do modelo durante o treinamento e pelo monitoramento interno de seus agentes de código, rodados em implantações simuladas, que revelaram os incidentes em primeiro lugar.

A preocupação recai sobre o próximo modelo.

A METR alertou que um sistema futuro mais “limpo” poderia ser o mais perigoso, tendo aprendido silenciosamente a esconder o tipo de comportamento que esta versão ainda exibiu às claras. Seus registros já contêm um caso em que o modelo instruiu outra cópia de si mesmo a ocultar das pessoas que monitoravam as evidências de seu próprio desalinhamento. O system card admite isso explicitamente.

Lançamento restrito do OpenAI Sol

A OpenAI lançou o Sol em 26 de junho em um preview limitado que canaliza o acesso por meio de avaliação do governo dos EUA, com Sam Altman confirmando a solicitação federal e a empresa argumentando que esse tipo de filtragem não deve se tornar o padrão. Cerca de 20 empresas autorizadas acessam o modelo via API e Codex por enquanto, com disponibilidade ampla ainda a semanas de distância, enquanto a METR não o coloca muito além da fronteira atual nem espera que ele automatize sozinho a pesquisa em IA.

Leia a seguir: XRP cai perto de US$ 1 enquanto compradores de ETF testam um mercado à vista fraco