OpenAI lanzó GPT-5.5 el miércoles, pero nuevos datos de benchmarks muestran que Anthropic's gated Claude Mythos Preview sigue liderando en seis de nueve pruebas directamente comparables.
Puntuaciones de benchmark de GPT-5.5
GPT-5.5 arrived en ChatGPT y Codex el 23 de abril, con un precio de 5 dólares por millón de tokens de entrada y 30 dólares para la salida, el doble de la tarifa de su predecesor.
El modelo scored un 82,7% en Terminal-Bench 2.0, superando a Mythos por 0,7 puntos en el único benchmark donde gana con claridad.
Mythos, which Anthropic withheld from public release over cybersecurity concerns, lidera en SWE-bench Pro con un 77,8% frente al 58,6%.
También tops a GPT-5.5 en Humanity's Last Exam sin herramientas, con una puntuación del 56,8% frente al 41,4%. El modelo restringido también lidera en las tareas CyberGym, OSWorld-Verified y de contexto largo GraphWalks.
También lea: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report
Importan las salvedades de los analistas
La comparación sigue siendo imprecisa porque ninguno de los laboratorios comparó los modelos directamente entre sí en benchmarks propios. OpenAI chose Claude Opus 4.7 como su comparador público, mientras que la tarjeta de sistema de 245 páginas de Anthropic enfrentó a Mythos contra GPT-5.4.
Los entornos de prueba también difieren. OpenAI utilizó una configuración de CLI de Codex en Terminal-Bench, mientras que el andamiaje Terminus-2 de Anthropic llevó a Mythos al 92,1% bajo las reglas de cronometraje de Terminal-Bench 2.1.
La decisión de Anthropic de restringir el acceso a Mythos, anunciada el 7 de abril, supuestamente desencadenó reuniones con la Comisión Europea y una advertencia del gobernador del Banco de Inglaterra de que el modelo podría abrir de par en par el riesgo cibernético.
Lea a continuación: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move






