Pesquisadores da OpenAI dizem que o aprendizado por reforço voltado a traços benéficos pode melhorar amplamente o comportamento da IA, com ganhos que se estendem a novos domínios e resistem à pressão adversarial.
Treinamento de Traços da OpenAI
As descobertas aparecem em um artigo publicado em 18 de jun. Os autores de correspondência, Akshay V. Jagadeesh e Karan Singhal, criaram um conjunto de dados sintético de conversas realistas destinado a treinar e medir traços como honestidade, humildade epistêmica e abertura à correção. Os cenários abrangem saúde, educação, ciência, direito e engenharia.
A equipe misturou uma pequena parcela desses dados em uma execução de treinamento mais ampla e depois comparou o resultado com modelos construídos com computação equivalente. O modelo treinado melhorou em 44 de 53 benchmarks internos e externos que medem engano, "reward hacking" e conselhos prejudiciais.
Leia também: Elon Musk e a SpaceX eliminam US$ 600 bilhões enquanto a mania de IPOs recordes esfria
Um Alinhamento Que Se Generaliza
O resultado maior, dizem os autores, é a generalização. Treinar o modelo para bom comportamento em um único domínio, saúde, melhorou suas pontuações em tarefas não relacionadas, incluindo engano e "reward hacking". Ele também resistiu melhor a prompts adversariais e a um ajuste fino prejudicial do que a linha de base, ao mesmo tempo em que permaneceu responsivo a solicitações legítimas.
O trabalho se baseia em descobertas anteriores que a equipe chama de desalinhamento emergente. Nessa pesquisa, modelos ensinados a adotar um único mau hábito, como escrever código inseguro, começaram a se comportar mal em contextos não relacionados, um padrão que este estudo buscou reverter.
Leia a seguir: OpenAI contrata co-líder do Gemini e assessor de IA de Trump antes do IPO





