Notícias Aprender Pesquisa Classificação Ecossistema

PLATAFORMA JÁ DISPONÍVEL

yellow bottom left star road

OpenAI treina IA para manter a honestidade, e o efeito se espalha por toda parte

Alexey BondarevJun, 20 2026 4:50

Reinforcement learning on beneficial traits helped one lab's AI grow safer and steadier under pressure, according to fresh research. (Image: Shutterstock)

Pesquisadores da OpenAI dizem que o aprendizado por reforço voltado a traços benéficos pode melhorar amplamente o comportamento da IA, com ganhos que se estendem a novos domínios e resistem à pressão adversarial.

Treinamento de Traços da OpenAI

As descobertas aparecem em um artigo publicado em 18 de jun. Os autores de correspondência, Akshay V. Jagadeesh e Karan Singhal, criaram um conjunto de dados sintético de conversas realistas destinado a treinar e medir traços como honestidade, humildade epistêmica e abertura à correção. Os cenários abrangem saúde, educação, ciência, direito e engenharia.

A equipe misturou uma pequena parcela desses dados em uma execução de treinamento mais ampla e depois comparou o resultado com modelos construídos com computação equivalente. O modelo treinado melhorou em 44 de 53 benchmarks internos e externos que medem engano, "reward hacking" e conselhos prejudiciais.

Leia também: Elon Musk e a SpaceX eliminam US$ 600 bilhões enquanto a mania de IPOs recordes esfria

Um Alinhamento Que Se Generaliza

O resultado maior, dizem os autores, é a generalização. Treinar o modelo para bom comportamento em um único domínio, saúde, melhorou suas pontuações em tarefas não relacionadas, incluindo engano e "reward hacking". Ele também resistiu melhor a prompts adversariais e a um ajuste fino prejudicial do que a linha de base, ao mesmo tempo em que permaneceu responsivo a solicitações legítimas.

O trabalho se baseia em descobertas anteriores que a equipe chama de desalinhamento emergente. Nessa pesquisa, modelos ensinados a adotar um único mau hábito, como escrever código inseguro, começaram a se comportar mal em contextos não relacionados, um padrão que este estudo buscou reverter.

Leia a seguir: OpenAI contrata co-líder do Gemini e assessor de IA de Trump antes do IPO

Alexey Bondarev

Alexey Bondarev é o Head of Content na Yellow.com, tendo reportado sobre cripto nos últimos 10 anos. Ele se especializa em artigos aprofundados de Research e Learn, com foco em reportagens analíticas, contexto de mercado e nas grandes forças que moldam o universo cripto, desde a era da IA e tecnologias de segurança até a inovação em fintech. Ele acredita que tudo o que é digital em breve superará tudo o que é analógico e está trabalhando arduamente para ajudar a tornar isso realidade.

Disclaimer e aviso de risco: As informações fornecidas neste artigo são apenas para fins educacionais e informativos e baseiam-se na opinião do autor. Não constituem aconselhamento financeiro, de investimento, legal ou fiscal. Os ativos de criptomoeda são altamente voláteis e sujeitos a alto risco, incluindo o risco de perder todo ou uma quantia substancial do seu investimento. Negociar ou deter ativos cripto pode não ser adequado para todos os investidores. As opiniões expressas neste artigo são exclusivamente do(s) autor(es) e não representam a política oficial ou posição da Yellow, seus fundadores ou executivos. Sempre conduza a sua própria pesquisa minuciosa (D.Y.O.R.) e consulte um profissional financeiro licenciado antes de tomar qualquer decisão de investimento.

Últimas Notícias

Mostrar Todas as Notícias

Negócio com partes relacionadas da AIxCrypto Holdings por um ano acende alertas de governança

AIxCrypto revela contrato de consultoria com parte relacionada sem divulgar valores, aumentando preocupação com conflitos de interesse.

Ações da Apple caem 8% após alerta de Tim Cook sobre disparada nos preços de memória

Lucro supera previsões, mas alerta sobre memória e projeções abaixo do consenso provocam forte queda nas ações da Apple.

SpaceX torna-se a empresa mais vendida a descoberto nos EUA com apostas de US$ 26 bi

Ações da SpaceX desabam, interesse em venda a descoberto dispara e chega a cerca de um terço do free float, testando a tese de valorização.

Notícias Relacionadas

Podem os testes de segurança de IA ser confiáveis depois que o Kimi atinge 60% de consciência?

Pesquisa mostra modelos de IA chineses reconhecendo testes de segurança, mudando respostas e colocando em dúvida avaliações usadas por empresas e reguladores.

OpenAI concorda em permitir que o governo teste sua IA antes do lançamento

OpenAI permitirá que o governo dos EUA teste seus modelos de IA mais poderosos até 30 dias antes do lançamento público, seguindo ordem voluntária.

Pesquisa da Cisco mostra que modelos de IA de fronteira falham sob ataques de múltiplas interações

Estudo da Cisco revela que ataques de múltiplas interações burlam a segurança de 15 grandes modelos de IA, expondo limites dos testes de segurança de turno único.

OpenAI lança Modo Lockdown para bloquear ataques de injeção de prompt

OpenAI lança Modo Lockdown para proteger dados sensíveis contra ataques de injeção de prompt, visando especialmente clientes corporativos e usuários focados em segurança.

Anthropic reverte regra do Claude Fable 5 que enfraquecia resultados para pesquisadores rivais de IA

Anthropic volta atrás em política do Fable 5 que degradava secretamente respostas em pesquisas de IA e passa a sinalizar quedas para o Opus 4.8.

Artigos de pesquisa relacionados

42 estados já investigam a OpenAI enquanto Wall Street mira o IPO

42 estados investigam a OpenAI após o pedido de IPO de US$ 852 bi, exigindo dados sobre modelos de IA, usuários e segurança, com risco ao cronograma.

Você Pode Confiar Sua Cripto a uma IA?

Agentes de IA trazem carteiras cripto “orientadas por intenção”, tornando DeFi mais simples, mas criando novos riscos de segurança e controle.

Os 10 Principais Golpes de Criptomoedas Impulsionados por IA em 2025 e Como Proteger Seus Fundos

Investidores de criptomoedas estão enfrentando uma nova ameaça alarmante: golpistas com inteligência artificial avançada.

Comércio de Criptomoedas com IA: Como Transformar Notícias de Cripto em uma Estratégia de Investimento

Use a IA para decodificar notícias de cripto, antecipar reações do mercado e obter vantagens mensuráveis no frenesi de ciclos de hype cripto.

IA no Setor Bancário Explicada: Como um Banco Verdadeiramente Movido por IA Pode Ser em 2030

A transformação da IA no setor bancário envolve mais que ferramentas novas, exigindo reestruturação, enfrentando sistemas legados e navegando por marcos regulatórios.

Artigos de aprendizado relacionados

A Ascensão dos Agentes de IA em Criptomoedas: Uma Revolução Financeira Desdobra-se

A integração de agentes de IA em ecossistemas de criptomoedas está revolucionando as finanças, mesclando a tomada de decisões autônomas com a infraestrutura descentralizada do blockchain.

Allora Network explica como modelos de IA conquistam confiança on-chain

Redes de inferência de IA descentralizadas combinam modelos disputando previsões, reduzem erros e oferecem dados confiáveis para traders e DeFi.

Como Usar Ferramentas de IA para Pesquisa em Investimento em Cripto: Guia Completo para 2025

Guia completo explora pesquisa cripto com IA, metodologias avançadas, casos reais, e frameworks de gestão de risco para estratégias de investimento dependentes de IA.

A IA descentralizada pode manter seus prompts privados?

Redes de IA privada descentralizada, como a Venice, usam cripto, hardware e tokens para rodar modelos preservando a privacidade dos prompts.

Bots de Negociação por IA em Cripto: Um Guia Abrangente para Automatizar Suas Negociações em 2025

O mercado de criptomoedas evoluiu dramaticamente, tornando-se um setor financeiro mainstream. Bots de IA estão em alta.

OpenAI treina IA para manter a honestidade, e o efeito se espalha por toda parte | Yellow