GPT-5.6 Sol frente a Claude Fable 5: los benchmarks de código muestran una carrera dividida

Nuevos análisis cara a cara enfrentan al GPT-5.6 Sol de OpenAI, que ostenta una puntuación del 88,8 % en un benchmark líder de programación, contra Claude Fable 5 de Anthropic y su marca del 80,3 % en ingeniería de software.

Puntos clave:

GPT-5.6 Sol encabeza Terminal-Bench 2.1 con un 88,8 %, y su modo Ultra eleva la puntuación al 91,9 %.

Claude Fable 5 mantiene la mayor ventaja publicada en SWE-Bench Pro con un 80,3 %, frente al 58,6 % de GPT-5.5.

Sol sigue en una vista previa limitada aprobada por el gobierno, mientras que Fable 5 volvió a estar disponible globalmente el 1 de julio.

Afirmaciones de benchmarks de GPT-5.6 Sol

OpenAI presentó en vista previa la familia GPT-5.6 el 26 de junio, su primer lanzamiento desde GPT-5.5 en abril, dividiendo la línea en tres niveles con Sol como buque insignia.

La empresa afirma que Sol alcanza el 88,8 % en Terminal-Bench 2.1, una prueba de agentes de programación en línea de comandos que planifican, iteran y coordinan herramientas. Un modo Ultra de gran consumo de cómputo, que activa subagentes coordinados para acelerar el trabajo complejo, eleva esa cifra al 91,9 %, la mejor marca publicada en la tabla de Terminal-Bench.

Analistas que compararon las tablas publicadas sitúan a Fable 5 varios puntos por detrás de Sol en la misma prueba de terminal, aunque las cifras citadas varían entre el 83,4 % y el 84,3 %. En la batería de seguridad ExploitBench, se informa de que Sol iguala el rendimiento de la clase Mythos mientras gasta aproximadamente un tercio de los tokens de salida, una compresión de costes que importa en ejecuciones largas de agentes.

Casi nadie fuera del programa de vista previa puede verificar aún esas cifras de forma independiente, una salvedad que varios analistas señalaron al mismo tiempo que reconocían las puntuaciones brutas.

También lee: OpenAI y Anthropic quieren OPVs del tamaño de SpaceX, pero Wall Street podría atragantarse

Ventaja de Fable 5 en programación y precios

Fable 5 sigue dominando el benchmark que la mayoría de los analistas consideran decisivo para el trabajo autónomo de software, y su ventaja allí no es pequeña. Logra un 80,3 % en SWE-Bench Pro, que mide correcciones de extremo a extremo de incidencias reales de GitHub, frente al 58,6 % del antiguo GPT-5.5, y OpenAI no ha publicado ninguna cifra de GPT-5.6 en esa prueba.

Expertos que detectaron brechas de ese tamaño en pruebas de programación, razonamiento y conocimiento dudan de que una sola versión incremental pueda cerrarlas por completo.

El precio juega en sentido contrario, ya que se informa de que Sol figura a 5 dólares por millón de tokens de entrada y 30 dólares por los de salida, la mitad de los 10 y 50 dólares de Fable 5. Varios analistas argumentaron que la configuración sensata dirige los agentes impulsados por terminal hacia Sol, una vez que se abra, y las correcciones a nivel de repositorio hacia Fable 5.

El acceso marca la línea más clara, ya que Sol sigue en una vista previa limitada para unas 20 entidades asociadas autorizadas por el gobierno, mientras que Fable 5 regresó a nivel mundial el 1 de julio con un bono temporal de uso para suscriptores de pago hasta el 7 de julio.

Junio convirtió el acceso a modelos de frontera en un objetivo móvil para ambos laboratorios, y ese vaivén enmarca cada análisis. Washington obligó a desconectar Fable 5 y su hermano más potente, Mythos 5 el 12 de junio, alegando graves riesgos de ciberseguridad, después de que investigadores de Amazon descubrieran un jailbreak que generaba código de explotación. El secretario de Comercio, Howard Lutnick, confirmó la marcha atrás el 30 de junio tras una revisión de dos semanas, pocos días después de que Mythos 5 regresara discretamente a unos 100 organismos estadounidenses evaluados.

Lee a continuación: ¿Por qué ETH sigue débil mientras el staking de Ethereum marca máximos históricos?