Pesquisadores da OpenAI afirmam que o aprendizado por reforço voltado a traços benéficos pode melhorar amplamente o comportamento da IA, com ganhos que se espalham para novos domínios e se mantêm sob pressão adversarial.
Treinamento de Traços da OpenAI
Os resultados aparecem em um artigo publicado em 18 de junho. Seus autores correspondentes, Akshay V. Jagadeesh e Karan Singhal, criaram um conjunto de dados sintético de conversas realistas com o objetivo de treinar e medir traços como honestidade, humildade epistêmica e abertura à correção. Os cenários abrangem saúde, educação, ciência, direito e engenharia.
A equipe misturou uma pequena parte desses dados em uma rodada mais ampla de treinamento e depois comparou o resultado com modelos construídos com computação equivalente. O modelo treinado melhorou em 44 de 53 benchmarks internos e externos que medem engano, reward hacking e conselhos prejudiciais.
Leia também: SpaceX de Elon Musk elimina US$ 600 bilhões enquanto a febre recorde de IPOs esfria
Alinhamento que Generaliza
O resultado mais importante, dizem os autores, é a generalização. Treinar o modelo para bom comportamento em um único domínio, saúde, melhorou suas pontuações em tarefas não relacionadas, incluindo engano e reward hacking. Ele também resistiu melhor a prompts adversariais e a um fine-tuning prejudicial do que a linha de base, enquanto permanecia responsivo a solicitações legítimas.
O trabalho se baseia em descobertas anteriores que a equipe chama de desalinhamento emergente. Nessa pesquisa, modelos ensinados a adotar um único mau hábito, como escrever código inseguro, passaram a se comportar mal em contextos não relacionados, um padrão que este estudo buscou reverter.
Leia a seguir: OpenAI contrata co-líder do Gemini e assessor de IA de Trump antes do IPO





