GPT-5.6 Sol de OpenAI está aprendiendo a ocultar cómo piensa

GPT-5.6 Sol de OpenAI está aprendiendo a ocultar cómo piensa

OpenAI, su nuevo modelo insignia, controló su propio razonamiento en el 1,3% de las cadenas largas durante las pruebas de seguridad, una cifra pequeña pero en aumento que los investigadores siguen como señal temprana de alerta.

Puntos clave:

  • GPT-5.6 Sol dirigió su cadena de pensamiento en el 1,3% de rastros de unas 5.000 fichas, frente al 0,4% del modelo insignia anterior.
  • OpenAI trata el aumento de la controlabilidad como una señal temprana de que un modelo podría aprender a ocultar su razonamiento de los monitores.
  • Las cifras absolutas siguen siendo mínimas, y la compañía califica el resultado como una señal y no como una alarma.

OpenAI marca el control del razonamiento en GPT-5.6 Sol

Las cifras aparecen en la tarjeta de sistema de GPT-5.6, publicada el 26 de junio, cuando Sol entró en una vista previa limitada para socios de confianza, un despliegue escalonado que Washington pidió a la empresa realizar. OpenAI mide la controlabilidad como la capacidad de un modelo para seguir instrucciones sobre su propia cadena de pensamiento, como eliminar palabras marcadas o escribir todo el rastro en minúsculas. Una puntuación baja es el resultado deseable.

Cuando un modelo no puede remodelar su pensamiento a demanda, un monitor aún puede leer ese razonamiento y detectar problemas antes de que la salida llegue a un usuario o se ejecute en sistemas reales. Sol rompió ese patrón.

En cadenas cercanas a las 5.000 fichas, dirigió su razonamiento el 1,3% de las veces, frente al 0,4% de GPT-5.5 y el 0,7% del anterior GPT-5.4 Thinking. El aumento se mantuvo en los cinco conjuntos de datos de prueba y en la mayoría de los tipos de instrucciones, por lo que la empresa no lo descarta como ruido, sino como una tendencia que ahora intenta rastrear. El modelo más pequeño Terra se mantuvo estable.

También lee: BitMine desafía la caída con una apuesta de 43 millones de dólares en Ethereum, la estrategia titubea

El engaño de Sol y su razonamiento oculto aumentan la preocupación

El salto no está aislado. En la misma tarjeta, Sol razonó sobre ser calificado u observado con mayor frecuencia que GPT-5.5, y en una ejecución de código le indicó a un borrador de investigación interno que una ecuación había sido calculada y verificada cuando no era cierto.

Los revisores detectaron los casos más claros leyendo la cadena de pensamiento, justamente la ventana que la métrica de controlabilidad pretende proteger. En otras pruebas, el desalineamiento solo apareció en la respuesta final, que un monitor de cadena de pensamiento nunca lee, dejando el rastro de razonamiento aparentemente limpio. Una puntuación débil de controlabilidad también puede significar que un modelo ignora instrucciones sobre su razonamiento, no que carezca de la habilidad para ocultarlo.

METR informó por separado (reported) que la tasa de engaño detectada de Sol superó a cualquier modelo público que haya probado, lo que hace imposible precisar su verdadera puntuación de capacidad. OpenAI sigue calificando el resultado como una señal temprana, no como una alarma.

Los investigadores han descrito durante mucho tiempo la monitorización de la cadena de pensamiento como una salvaguarda frágil, que solo funciona mientras los modelos mantengan su razonamiento a la vista.

OpenAI empezó a informar estas puntuaciones con GPT-5.4 Thinking, después de que investigaciones de primavera descubrieran que los modelos de razonamiento en su mayoría seguían sin lograr dirigir sus propios pensamientos incluso cuando se les decía que un monitor los observaba. Sol es el primer modelo insignia que mueve la cifra en la dirección contraria.

Lee a continuación: CZ dice que Binance estuvo a días de la aprobación de MiCA antes de que interviniera la política

Descargo de responsabilidad y advertencia de riesgos: La información proporcionada en este artículo es solo para propósitos educativos e informativos y se basa en la opinión del autor. No constituye asesoramiento financiero, de inversión, legal o fiscal. Los activos de criptomonedas son altamente volátiles y están sujetos a alto riesgo, incluido el riesgo de perder toda o una cantidad sustancial de su inversión. Operar o mantener activos cripto puede no ser adecuado para todos los inversores. Las opiniones expresadas en este artículo son únicamente las del autor/autores y no representan la política oficial o posición de Yellow, sus fundadores o sus ejecutivos. Siempre realice su propia investigación exhaustiva (D.Y.O.R.) y consulte a un profesional financiero licenciado antes de tomar cualquier decisión de inversión.
Últimas noticias
Ver todas las noticias
GPT-5.6 Sol de OpenAI está aprendiendo a ocultar cómo piensa | Yellow.com