Claude Mythos Vs. GPT-5.5: el modelo restringido de Anthropic gana 6 de 9 pruebas

Claude Mythos Vs. GPT-5.5: el modelo restringido de Anthropic gana 6 de 9 pruebas

OpenAI lanzó GPT-5.5 el miércoles, pero nuevos datos de benchmarks muestran que Anthropic's gated Claude Mythos Preview sigue liderando en seis de nueve pruebas directamente comparables.

Puntuaciones de benchmark de GPT-5.5

GPT-5.5 arrived en ChatGPT y Codex el 23 de abril, con un precio de 5 dólares por millón de tokens de entrada y 30 dólares para la salida, el doble de la tarifa de su predecesor.

El modelo scored un 82,7% en Terminal-Bench 2.0, superando a Mythos por 0,7 puntos en el único benchmark donde gana con claridad.

Mythos, which Anthropic withheld from public release over cybersecurity concerns, lidera en SWE-bench Pro con un 77,8% frente al 58,6%.

También tops a GPT-5.5 en Humanity's Last Exam sin herramientas, con una puntuación del 56,8% frente al 41,4%. El modelo restringido también lidera en las tareas CyberGym, OSWorld-Verified y de contexto largo GraphWalks.

También lea: Top Crypto Exchanges Mandate AI Tools, Track Token Use As KPI: Report

Importan las salvedades de los analistas

La comparación sigue siendo imprecisa porque ninguno de los laboratorios comparó los modelos directamente entre sí en benchmarks propios. OpenAI chose Claude Opus 4.7 como su comparador público, mientras que la tarjeta de sistema de 245 páginas de Anthropic enfrentó a Mythos contra GPT-5.4.

Los entornos de prueba también difieren. OpenAI utilizó una configuración de CLI de Codex en Terminal-Bench, mientras que el andamiaje Terminus-2 de Anthropic llevó a Mythos al 92,1% bajo las reglas de cronometraje de Terminal-Bench 2.1.

La decisión de Anthropic de restringir el acceso a Mythos, anunciada el 7 de abril, supuestamente desencadenó reuniones con la Comisión Europea y una advertencia del gobernador del Banco de Inglaterra de que el modelo podría abrir de par en par el riesgo cibernético.

Lea a continuación: Ethereum Nears $2,450 Showdown As Bulls And Bears Split On Next Move

Descargo de responsabilidad y advertencia de riesgos: La información proporcionada en este artículo es solo para propósitos educativos e informativos y se basa en la opinión del autor. No constituye asesoramiento financiero, de inversión, legal o fiscal. Los activos de criptomonedas son altamente volátiles y están sujetos a alto riesgo, incluido el riesgo de perder toda o una cantidad sustancial de su inversión. Operar o mantener activos cripto puede no ser adecuado para todos los inversores. Las opiniones expresadas en este artículo son únicamente las del autor/autores y no representan la política oficial o posición de Yellow, sus fundadores o sus ejecutivos. Siempre realice su propia investigación exhaustiva (D.Y.O.R.) y consulte a un profesional financiero licenciado antes de tomar cualquier decisión de inversión.
Claude Mythos Vs. GPT-5.5: el modelo restringido de Anthropic gana 6 de 9 pruebas | Yellow.com