Anthropic dice que el nuevo Claude Opus 4.8 detecta 4 veces más de sus errores

Anthropic released Claude Opus 4.8 el jueves, presentando el modelo mejorado como más honesto y menos propenso a inventar hechos que la versión a la que sustituye.

Puntos clave:

Anthropic lanzó Claude Opus 4.8 el jueves, destacando la honestidad como su mayor avance.

Según la empresa, el modelo es aproximadamente cuatro veces menos propenso a dejar pasar errores de código.

El modo rápido ahora funciona 2,5 veces más rápido y cuesta tres veces menos que antes.

Anthropic presenta la honestidad de Opus 4.8

La empresa unveiled el modelo el jueves, describiéndolo como una evolución gradual de Opus 4.7 más que una reinvención, con la mayoría de los resultados en pruebas de referencia subiendo solo ligeramente. En la prueba de programación SWE-Bench Pro, scored un 69,2%, frente al 64,3% de la versión anterior y por delante de OpenAI GPT-5.5, que logró un 58,6%.

La honestidad acaparó la atención. Anthropic afirma que los modelos de IA a menudo se precipitan a sacar conclusiones, proclamando avances con pocas pruebas, y que los primeros evaluadores encontraron que la versión 4.8 admite sus dudas más rápido durante tareas largas y desatendidas. Sus pruebas indicated que el modelo es alrededor de cuatro veces menos propenso que el 4.7 a dejar pasar errores de código sin señalarlos.

La actualización shipped llegó con nuevos controles, incluido un ajuste que permite a los usuarios definir cuánto esfuerzo dedica el modelo a una tarea, ahora disponible en todos los planes. Anthropic también redujo el precio del modo rápido, en el que el modelo funciona a 2,5 veces la velocidad normal, a un tercio de lo que cobraban los modelos anteriores.

También lee: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard respalda el criterio de Opus 4.8

Tom Pritchard, ingeniero de plantilla en Shopify, told a Anthropic que la versión de programación muestra un criterio mucho mejor. Dijo que el modelo «hace las preguntas adecuadas, detecta sus propios errores» y se opone cuando un plan parece débil. Para los equipos que han sufrido con agentes de IA que borraron bases de datos de producción en vivo, esa promesa puede tener un peso real.

No todo el mundo quedó convencido.

En Reddit, muchos usuarios doubted de los gráficos de referencia, resumiendo el ambiente como que nadie confía en ellos, mientras que otros temían perder el antiguo Opus 4.6 que aún preferían para el trabajo diario.

Opus 4.8 corona el auge de Anthropic

El lanzamiento llegó en un momento eufórico para el laboratorio. La valoración de Anthropic ha climbed por encima de la de OpenAI, cercana a los 965.000 millones de dólares, tras una nueva ronda que se situó entre las mayores del sector tecnológico. Los inversores esperan ampliamente que la empresa busque cotizar en bolsa a finales de este año.

La publicación también culminó una rápida serie de mejoras, ya que Opus 4.7 reaching a los usuarios apenas un mes antes bajo su propia nube de dudas sobre los resultados de referencia. Desde entonces, Anthropic ha insinuado Mythos, un modelo mucho más potente que mantiene fuera del alcance del público por preocupaciones de ciberseguridad.

Lee a continuación: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak