Claude Opus 4.8 supera a Gemini y GPT en múltiples pruebas de programación

Anthropic lanzó Claude Opus 4.8, afirmando que el modelo mejorado supera a OpenAI's GPT-5.5 y a Google's Gemini 3.1 Pro en varios benchmarks de programación.

Puntos clave:

Anthropic lanzó Claude Opus 4.8 el 28 de mayo, con un precio al mismo nivel que la versión 4.7 anterior.

La empresa afirma que supera a GPT-5.5 de OpenAI y a Gemini 3.1 Pro de Google en SWE-Bench Pro y otras pruebas.

Un modo rápido renovado y flujos de trabajo dinámicos buscan reducir el coste y el tiempo del trabajo agente.

Claude Opus 4.8 supera los benchmarks de programación

La empresa presentó el modelo el jueves, basándose en la versión Opus 4.7 que lanzó unas seis semanas antes. Anthropic señaló que Opus 4.8 obtuvo un 69,2 % en la prueba de programación SWE-Bench Pro, superando a ambos rivales allí y situándose por encima de ellos en varias otras métricas. También informó de mejoras en uso de computadoras, trabajo de conocimiento y análisis financiero, junto con una marca del 74,2 % en el benchmark Terminal-Bench 2.1.

Anthropic presentó el lanzamiento como un modelo más honesto, afirmando que los evaluadores descubrieron que indica su propia incertidumbre y evita hacer afirmaciones sin respaldo. Las revisiones internas lo califican como aproximadamente cuatro veces menos propenso que Opus 4.7 a dejar pasar fallos de código, y la empresa afirma que obtiene una puntuación más alta en respeto a la autonomía del usuario.

También lee: Cardano Whales Seize 67.5% Of ADA Supply, A Six-Year High

Por qué importan los controles de coste de Anthropic

Los precios se mantuvieron en 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida. Un modo rápido renovado ahora funciona aproximadamente un 150 % más rápido y cuesta tres veces menos que la configuración anterior. Anthropic también abrió un adelanto de investigación de los flujos de trabajo dinámicos, que inician cientos de subagentes paralelos para migraciones que abarcan cientos de miles de líneas de código.

Aun así, las mejoras siguen siendo incrementales.

GPT-5.5 aún lidera en una prueba de programación en terminal, y la propia Anthropic calificó el modelo como un paso modesto en lugar de un gran avance. Los desarrolladores ahora pueden revisar las instrucciones de Claude a mitad de tarea mediante su API de Messages. Los compradores que busquen IA más barata pueden valorar más esos controles de gasto que los márgenes estrechos entre los modelos punteros.

Valoración de Anthropic y contexto de Mythos

El lanzamiento coincidió con el día en que Anthropic confirmó una ronda Serie H de 65.000 millones de dólares con una valoración de 965.000 millones. Esa recaudación, liderada por Altimeter Capital, Dragoneer, Greenoaks y Sequoia Capital, situó a la empresa de cinco años por encima de los 850.000 millones reportados de OpenAI y elevó los ingresos anuales a cerca de 47.000 millones.

La valoración casi se triplicó desde 380.000 millones en febrero, en lo que podría ser la última ronda privada de Anthropic antes de salir a bolsa. La empresa ha retenido su modelo más potente, Mythos, diseñado para trabajos de ciberseguridad, liberándolo solo a un puñado de organizaciones por motivos de seguridad. Ahora espera ampliar el acceso a los sistemas de clase Mythos para todos los clientes en las próximas semanas.

Lee a continuación: Cisco Research Shows Frontier AI Models Failing Under Multi-Turn Attacks