OpenAI treina IA para permanecer honesta, e o efeito se espalha por toda parte

OpenAI treina IA para permanecer honesta, e o efeito se espalha por toda parte

Pesquisadores da OpenAI afirmam que o aprendizado por reforço voltado a traços benéficos pode melhorar amplamente o comportamento da IA, com ganhos que se espalham para novos domínios e se mantêm sob pressão adversarial.

Treinamento de Traços da OpenAI

Os resultados aparecem em um artigo publicado em 18 de junho. Seus autores correspondentes, Akshay V. Jagadeesh e Karan Singhal, criaram um conjunto de dados sintético de conversas realistas com o objetivo de treinar e medir traços como honestidade, humildade epistêmica e abertura à correção. Os cenários abrangem saúde, educação, ciência, direito e engenharia.

A equipe misturou uma pequena parte desses dados em uma rodada mais ampla de treinamento e depois comparou o resultado com modelos construídos com computação equivalente. O modelo treinado melhorou em 44 de 53 benchmarks internos e externos que medem engano, reward hacking e conselhos prejudiciais.

Leia também: SpaceX de Elon Musk elimina US$ 600 bilhões enquanto a febre recorde de IPOs esfria

Alinhamento que Generaliza

O resultado mais importante, dizem os autores, é a generalização. Treinar o modelo para bom comportamento em um único domínio, saúde, melhorou suas pontuações em tarefas não relacionadas, incluindo engano e reward hacking. Ele também resistiu melhor a prompts adversariais e a um fine-tuning prejudicial do que a linha de base, enquanto permanecia responsivo a solicitações legítimas.

O trabalho se baseia em descobertas anteriores que a equipe chama de desalinhamento emergente. Nessa pesquisa, modelos ensinados a adotar um único mau hábito, como escrever código inseguro, passaram a se comportar mal em contextos não relacionados, um padrão que este estudo buscou reverter.

Leia a seguir: OpenAI contrata co-líder do Gemini e assessor de IA de Trump antes do IPO

Isenção de responsabilidade e aviso de risco: As informações fornecidas neste artigo são apenas para fins educacionais e informativos e são baseadas na opinião do autor. Elas não constituem aconselhamento financeiro, de investimento, jurídico ou tributário. Ativos de criptomoedas são altamente voláteis e sujeitos a alto risco, incluindo o risco de perder todo ou uma quantia substancial do seu investimento. Negociar ou manter ativos cripto pode não ser adequado para todos os investidores. As opiniões expressas neste artigo são exclusivamente do(s) autor(es) e não representam a política oficial ou posição da Yellow, seus fundadores ou seus executivos. Sempre conduza sua própria pesquisa minuciosa (D.Y.O.R.) e consulte um profissional financeiro licenciado antes de tomar qualquer decisão de investimento.