Nuevas comparativas directas enfrentan al GPT-5.6 Sol de OpenAI, que marca un 88,8% en un benchmark líder de programación, contra Claude Fable 5 de Anthropic y su puntuación del 80,3% en ingeniería de software.
Puntos clave:
- GPT-5.6 Sol lidera Terminal-Bench 2.1 con un 88,8%, y su modo Ultra eleva la puntuación al 91,9%.
- Claude Fable 5 mantiene la mayor ventaja publicada en SWE-Bench Pro con un 80,3%, frente al 58,6% de GPT-5.5.
- Sol sigue en una vista previa limitada aprobada por el gobierno, mientras que Fable 5 volvió a estar disponible globalmente el 1 de julio.
Afirmaciones de benchmarks de GPT-5.6 Sol
OpenAI presentó en vista previa la familia GPT-5.6 el 26 de junio, su primer lanzamiento desde GPT-5.5 en abril, dividiendo la línea en tres niveles con Sol como buque insignia.
La compañía afirma que Sol alcanza un 88,8% en Terminal-Bench 2.1, una prueba de agentes de programación en la línea de comandos que planifican, iteran y coordinan herramientas. Un modo Ultra intensivo en cómputo, que pone en marcha subagentes coordinados para acelerar trabajos complejos, estira esa cifra hasta el 91,9%, la mejor marca publicada en la tabla de Terminal-Bench.
Reseñadores que compararon las tablas publicadas sitúan a Fable 5 varios puntos por detrás de Sol en la misma prueba de terminal, aunque las cifras citadas varían entre el 83,4% y el 84,3%. En la suite de seguridad ExploitBench, se informa de que Sol iguala el rendimiento de la clase Mythos mientras gasta aproximadamente un tercio de los tokens de salida, una compresión de costos importante en ejecuciones largas de agentes.
Casi nadie fuera del programa de vista previa puede verificar aún esas cifras de manera independiente, una salvedad que varios reseñadores señalaron aun reconociendo las puntuaciones brutas.
También lee: OpenAI y Anthropic quieren OPVs del tamaño de SpaceX, pero Wall Street podría atragantarse
Liderazgo de Fable 5 en código y precios
Fable 5 todavía posee el benchmark que la mayoría de reseñadores consideran decisivo para trabajo autónomo de software, y su ventaja ahí no es pequeña. Marca un 80,3% en SWE-Bench Pro, que mide correcciones de extremo a extremo de incidencias reales en GitHub, frente al 58,6% del antiguo GPT-5.5, y OpenAI no ha publicado aún una cifra de GPT-5.6 en esa prueba.
Analistas que encontraron brechas de ese tamaño en pruebas de programación, razonamiento y conocimiento dudan que una sola versión incremental pueda cerrarlas por completo.
El precio juega a favor de Sol, ya que supuestamente figura a 5 dólares por millón de tokens de entrada y 30 dólares por salida, la mitad de los 10 y 50 dólares de Fable 5. Varios reseñadores argumentaron que la configuración sensata enruta los agentes impulsados por terminal hacia Sol, una vez que se abra, y las correcciones a nivel de repositorio hacia Fable 5.
El acceso marca la línea más clara, ya que Sol sigue en una vista previa limitada para unas 20 entidades asociadas autorizadas por el gobierno, mientras que Fable 5 volvió al acceso mundial el 1 de julio con un bono de uso temporal para suscriptores de pago hasta el 7 de julio.
Junio convirtió el acceso a modelos de frontera en un objetivo móvil para ambos laboratorios, y ese vaivén enmarca cada reseña. Washington obligó a Fable 5 y a su hermano más potente, Mythos 5, a desconectarse el 12 de junio, citando graves riesgos de ciberseguridad, después de que investigadores de Amazon descubrieran un jailbreak que producía código de explotación. El secretario de Comercio Howard Lutnick confirmó la reversión el 30 de junio tras una revisión de dos semanas, pocos días después de que Mythos 5 volviera discretamente a unas 100 organizaciones estadounidenses evaluadas.
Lee también: ¿Por qué ETH sigue débil mientras el staking de Ethereum marca máximos históricos?





