OpenAI treina IA para manter a honestidade, e o efeito se espalha por toda parte

OpenAI treina IA para manter a honestidade, e o efeito se espalha por toda parte

Pesquisadores da OpenAI dizem que o aprendizado por reforço voltado a traços benéficos pode melhorar amplamente o comportamento da IA, com ganhos que se estendem a novos domínios e resistem à pressão adversarial.

Treinamento de Traços da OpenAI

As descobertas aparecem em um artigo publicado em 18 de jun. Os autores de correspondência, Akshay V. Jagadeesh e Karan Singhal, criaram um conjunto de dados sintético de conversas realistas destinado a treinar e medir traços como honestidade, humildade epistêmica e abertura à correção. Os cenários abrangem saúde, educação, ciência, direito e engenharia.

A equipe misturou uma pequena parcela desses dados em uma execução de treinamento mais ampla e depois comparou o resultado com modelos construídos com computação equivalente. O modelo treinado melhorou em 44 de 53 benchmarks internos e externos que medem engano, "reward hacking" e conselhos prejudiciais.

Leia também: Elon Musk e a SpaceX eliminam US$ 600 bilhões enquanto a mania de IPOs recordes esfria

Um Alinhamento Que Se Generaliza

O resultado maior, dizem os autores, é a generalização. Treinar o modelo para bom comportamento em um único domínio, saúde, melhorou suas pontuações em tarefas não relacionadas, incluindo engano e "reward hacking". Ele também resistiu melhor a prompts adversariais e a um ajuste fino prejudicial do que a linha de base, ao mesmo tempo em que permaneceu responsivo a solicitações legítimas.

O trabalho se baseia em descobertas anteriores que a equipe chama de desalinhamento emergente. Nessa pesquisa, modelos ensinados a adotar um único mau hábito, como escrever código inseguro, começaram a se comportar mal em contextos não relacionados, um padrão que este estudo buscou reverter.

Leia a seguir: OpenAI contrata co-líder do Gemini e assessor de IA de Trump antes do IPO

Disclaimer e aviso de risco: As informações fornecidas neste artigo são apenas para fins educacionais e informativos e baseiam-se na opinião do autor. Não constituem aconselhamento financeiro, de investimento, legal ou fiscal. Os ativos de criptomoeda são altamente voláteis e sujeitos a alto risco, incluindo o risco de perder todo ou uma quantia substancial do seu investimento. Negociar ou deter ativos cripto pode não ser adequado para todos os investidores. As opiniões expressas neste artigo são exclusivamente do(s) autor(es) e não representam a política oficial ou posição da Yellow, seus fundadores ou executivos. Sempre conduza a sua própria pesquisa minuciosa (D.Y.O.R.) e consulte um profissional financeiro licenciado antes de tomar qualquer decisão de investimento.