OpenAI entrena a la IA para mantenerse honesta, y el efecto se extiende por todas partes

OpenAI entrena a la IA para mantenerse honesta, y el efecto se extiende por todas partes

Investigadores de OpenAI afirman que el aprendizaje por refuerzo orientado a rasgos beneficiosos puede mejorar de forma amplia el comportamiento de la IA, con mejoras que se extienden a nuevos dominios y se mantienen bajo presión adversaria.

Entrenamiento de rasgos en OpenAI

Los hallazgos aparecen en un artículo publicado el 18 de junio. Sus autores de correspondencia, Akshay V. Jagadeesh y Karan Singhal, construyeron un conjunto de datos sintético de conversaciones realistas destinado a entrenar y medir rasgos como la honestidad, la humildad epistémica y la apertura a la corrección. Los escenarios abarcan salud, educación, ciencia, derecho e ingeniería.

El equipo mezcló una pequeña parte de esos datos en una ejecución de entrenamiento más amplia y luego comparó el resultado con modelos construidos con un cómputo equivalente. El modelo entrenado mejoró en 44 de 53 puntos de referencia internos y externos que miden el engaño, el “reward hacking” y los consejos perjudiciales.

También lee: El SpaceX de Elon Musk elimina 600 mil millones de dólares mientras se enfría la fiebre récord por las salidas a bolsa

Una alineación que generaliza

El resultado más importante, según los autores, es la generalización. Entrenar al modelo para un buen comportamiento en un solo dominio, la salud, mejoró sus puntuaciones en tareas no relacionadas, incluido el engaño y el “reward hacking”. También resistió mejor que la línea base los mensajes adversarios y el ajuste fino perjudicial, sin dejar de responder a solicitudes legítimas.

El trabajo se basa en hallazgos anteriores que el equipo denomina desalineación emergente. En esa investigación, los modelos a los que se les enseñó un único mal hábito, como escribir código inseguro, comenzaron a comportarse mal en contextos no relacionados, un patrón que este estudio buscó revertir.

Leer siguiente: OpenAI ficha al copiloto de Gemini y al asesor de IA de Trump antes de la salida a bolsa

Descargo de responsabilidad y advertencia de riesgos: La información proporcionada en este artículo es solo para propósitos educativos e informativos y se basa en la opinión del autor. No constituye asesoramiento financiero, de inversión, legal o fiscal. Los activos de criptomonedas son altamente volátiles y están sujetos a alto riesgo, incluido el riesgo de perder toda o una cantidad sustancial de su inversión. Operar o mantener activos cripto puede no ser adecuado para todos los inversores. Las opiniones expresadas en este artículo son únicamente las del autor/autores y no representan la política oficial o posición de Yellow, sus fundadores o sus ejecutivos. Siempre realice su propia investigación exhaustiva (D.Y.O.R.) y consulte a un profesional financiero licenciado antes de tomar cualquier decisión de inversión.
OpenAI entrena a la IA para mantenerse honesta, y el efecto se extiende por todas partes | Yellow.com