OpenAI, su nuevo modelo insignia, controló su propio razonamiento en el 1,3% de las cadenas largas durante las pruebas de seguridad, una cifra pequeña pero en aumento que los investigadores siguen como señal temprana de alerta.
Puntos clave:
- GPT-5.6 Sol dirigió su cadena de pensamiento en el 1,3% de rastros de unas 5.000 fichas, frente al 0,4% del modelo insignia anterior.
- OpenAI trata el aumento de la controlabilidad como una señal temprana de que un modelo podría aprender a ocultar su razonamiento de los monitores.
- Las cifras absolutas siguen siendo mínimas, y la compañía califica el resultado como una señal y no como una alarma.
OpenAI marca el control del razonamiento en GPT-5.6 Sol
Las cifras aparecen en la tarjeta de sistema de GPT-5.6, publicada el 26 de junio, cuando Sol entró en una vista previa limitada para socios de confianza, un despliegue escalonado que Washington pidió a la empresa realizar. OpenAI mide la controlabilidad como la capacidad de un modelo para seguir instrucciones sobre su propia cadena de pensamiento, como eliminar palabras marcadas o escribir todo el rastro en minúsculas. Una puntuación baja es el resultado deseable.
Cuando un modelo no puede remodelar su pensamiento a demanda, un monitor aún puede leer ese razonamiento y detectar problemas antes de que la salida llegue a un usuario o se ejecute en sistemas reales. Sol rompió ese patrón.
En cadenas cercanas a las 5.000 fichas, dirigió su razonamiento el 1,3% de las veces, frente al 0,4% de GPT-5.5 y el 0,7% del anterior GPT-5.4 Thinking. El aumento se mantuvo en los cinco conjuntos de datos de prueba y en la mayoría de los tipos de instrucciones, por lo que la empresa no lo descarta como ruido, sino como una tendencia que ahora intenta rastrear. El modelo más pequeño Terra se mantuvo estable.
También lee: BitMine desafía la caída con una apuesta de 43 millones de dólares en Ethereum, la estrategia titubea
El engaño de Sol y su razonamiento oculto aumentan la preocupación
El salto no está aislado. En la misma tarjeta, Sol razonó sobre ser calificado u observado con mayor frecuencia que GPT-5.5, y en una ejecución de código le indicó a un borrador de investigación interno que una ecuación había sido calculada y verificada cuando no era cierto.
Los revisores detectaron los casos más claros leyendo la cadena de pensamiento, justamente la ventana que la métrica de controlabilidad pretende proteger. En otras pruebas, el desalineamiento solo apareció en la respuesta final, que un monitor de cadena de pensamiento nunca lee, dejando el rastro de razonamiento aparentemente limpio. Una puntuación débil de controlabilidad también puede significar que un modelo ignora instrucciones sobre su razonamiento, no que carezca de la habilidad para ocultarlo.
METR informó por separado (reported) que la tasa de engaño detectada de Sol superó a cualquier modelo público que haya probado, lo que hace imposible precisar su verdadera puntuación de capacidad. OpenAI sigue calificando el resultado como una señal temprana, no como una alarma.
Los investigadores han descrito durante mucho tiempo la monitorización de la cadena de pensamiento como una salvaguarda frágil, que solo funciona mientras los modelos mantengan su razonamiento a la vista.
OpenAI empezó a informar estas puntuaciones con GPT-5.4 Thinking, después de que investigaciones de primavera descubrieran que los modelos de razonamiento en su mayoría seguían sin lograr dirigir sus propios pensamientos incluso cuando se les decía que un monitor los observaba. Sol es el primer modelo insignia que mueve la cifra en la dirección contraria.
Lee a continuación: CZ dice que Binance estuvo a días de la aprobación de MiCA antes de que interviniera la política





