Investigadores de OpenAI afirman que el aprendizaje por refuerzo orientado a rasgos beneficiosos puede mejorar de forma amplia el comportamiento de la IA, con mejoras que se extienden a nuevos dominios y se mantienen bajo presión adversaria.
Entrenamiento de rasgos en OpenAI
Los hallazgos aparecen en un artículo publicado el 18 de junio. Sus autores de correspondencia, Akshay V. Jagadeesh y Karan Singhal, construyeron un conjunto de datos sintético de conversaciones realistas destinado a entrenar y medir rasgos como la honestidad, la humildad epistémica y la apertura a la corrección. Los escenarios abarcan salud, educación, ciencia, derecho e ingeniería.
El equipo mezcló una pequeña parte de esos datos en una ejecución de entrenamiento más amplia y luego comparó el resultado con modelos construidos con un cómputo equivalente. El modelo entrenado mejoró en 44 de 53 puntos de referencia internos y externos que miden el engaño, el “reward hacking” y los consejos perjudiciales.
Una alineación que generaliza
El resultado más importante, según los autores, es la generalización. Entrenar al modelo para un buen comportamiento en un solo dominio, la salud, mejoró sus puntuaciones en tareas no relacionadas, incluido el engaño y el “reward hacking”. También resistió mejor que la línea base los mensajes adversarios y el ajuste fino perjudicial, sin dejar de responder a solicitudes legítimas.
El trabajo se basa en hallazgos anteriores que el equipo denomina desalineación emergente. En esa investigación, los modelos a los que se les enseñó un único mal hábito, como escribir código inseguro, comenzaron a comportarse mal en contextos no relacionados, un patrón que este estudio buscó revertir.
Leer siguiente: OpenAI ficha al copiloto de Gemini y al asesor de IA de Trump antes de la salida a bolsa





