Yellow.com

Investigadores de OpenAI afirman que el aprendizaje por refuerzo orientado a rasgos beneficiosos puede mejorar de forma amplia el comportamiento de la IA, con mejoras que se extienden a nuevos dominios y se mantienen bajo presión adversaria.

Entrenamiento de rasgos en OpenAI

Los hallazgos aparecen en un artículo publicado el 18 de junio. Sus autores de correspondencia, Akshay V. Jagadeesh y Karan Singhal, construyeron un conjunto de datos sintético de conversaciones realistas destinado a entrenar y medir rasgos como la honestidad, la humildad epistémica y la apertura a la corrección. Los escenarios abarcan salud, educación, ciencia, derecho e ingeniería.

El equipo mezcló una pequeña parte de esos datos en una ejecución de entrenamiento más amplia y luego comparó el resultado con modelos construidos con un cómputo equivalente. El modelo entrenado mejoró en 44 de 53 puntos de referencia internos y externos que miden el engaño, el “reward hacking” y los consejos perjudiciales.

También lee: El SpaceX de Elon Musk elimina 600 mil millones de dólares mientras se enfría la fiebre récord por las salidas a bolsa

Una alineación que generaliza

El resultado más importante, según los autores, es la generalización. Entrenar al modelo para un buen comportamiento en un solo dominio, la salud, mejoró sus puntuaciones en tareas no relacionadas, incluido el engaño y el “reward hacking”. También resistió mejor que la línea base los mensajes adversarios y el ajuste fino perjudicial, sin dejar de responder a solicitudes legítimas.

El trabajo se basa en hallazgos anteriores que el equipo denomina desalineación emergente. En esa investigación, los modelos a los que se les enseñó un único mal hábito, como escribir código inseguro, comenzaron a comportarse mal en contextos no relacionados, un patrón que este estudio buscó revertir.

Leer siguiente: OpenAI ficha al copiloto de Gemini y al asesor de IA de Trump antes de la salida a bolsa

Alexey Bondarev

Alexey Bondarev es el Jefe de Contenido en Yellow.com y ha informado sobre criptomonedas durante los últimos 10 años. Se especializa en artículos de Investigación y Aprendizaje en profundidad, con un enfoque en reportes analíticos, contexto de la industria y las grandes fuerzas que dan forma al cripto, desde la era de la IA y las tecnologías de seguridad hasta la innovación fintech. Cree que todo lo digital superará inminentemente a todo lo analógico y trabaja arduamente para hacerlo realidad.

OpenAI entrena a la IA para mantenerse honesta, y el efecto se extiende por todas partes

Entrenamiento de rasgos en OpenAI

Una alineación que generaliza

Alexey Bondarev