Anthropic dice que el nuevo Claude Opus 4.8 detecta cuatro veces más de sus errores

Anthropic dice que el nuevo Claude Opus 4.8 detecta cuatro veces más de sus errores

Anthropic released Claude Opus 4.8 el jueves, presentando el modelo actualizado como más honesto y menos propenso a inventar hechos que la versión a la que sustituye.

Puntos clave:

  • Anthropic lanzó Claude Opus 4.8 el jueves, señalando la honestidad como su mejora más destacada.
  • Según la empresa, el modelo tiene aproximadamente cuatro veces menos probabilidades de dejar pasar fallos de código.
  • El modo rápido ahora funciona 2,5 veces más rápido y cuesta tres veces menos que antes.

Anthropic presenta la honestidad de Opus 4.8

La empresa unveiled el modelo el jueves, presentándolo como una mejora gradual sobre Opus 4.7 en lugar de una reinvención, con la mayoría de las puntuaciones en pruebas aumentando solo ligeramente. En el test de programación SWE-Bench Pro, scored un 69,2 %, frente al 64,3 % de la versión anterior y por delante de OpenAI GPT-5.5, que logró un 58,6 %.

La honestidad se llevó el foco. Anthropic afirma que los modelos de IA suelen sacar conclusiones apresuradas, proclamando avances con pruebas débiles, y que los primeros evaluadores encontraron que la versión 4.8 era más rápida a la hora de admitir dudas durante tareas largas y desatendidas. Sus pruebas indicated que el modelo tiene unas cuatro veces menos probabilidades que la versión 4.7 de dejar pasar sin señalar fallos de programación.

La actualización shipped con nuevos controles, incluido un ajuste que permite a los usuarios decidir cuánto esfuerzo aplica el modelo a una tarea, ahora disponible en todos los planes. Anthropic también redujo el precio del modo rápido, en el que el modelo funciona a 2,5 veces la velocidad normal, a un tercio de lo que cobraban modelos anteriores.

También lee: Kalshi Wins CFTC Approval For First U.S. Bitcoin Perpetual Futures

Pritchard respalda el criterio de Opus 4.8

Tom Pritchard, ingeniero de plantilla en Shopify, told a Anthropic que la versión enfocada a programación muestra un criterio mucho mejor. Dijo que el modelo «hace las preguntas adecuadas, detecta sus propios errores» y se resiste cuando un plan parece débil. Para equipos que han sufrido con agentes de IA que borraron bases de datos de producción en vivo, esa promesa puede tener un peso real.

No todo el mundo quedó convencido.

En Reddit, muchos usuarios doubted las gráficas de benchmarks, resumiendo el ambiente como que nadie confiaba en ellas, mientras que otros temían perder el antiguo Opus 4.6 que aún preferían para el trabajo diario.

Opus 4.8 corona el auge de Anthropic

El lanzamiento llegó en un momento eufórico para el laboratorio. La valoración de Anthropic ha climbed por encima de la marca cercana a 965.000 millones de dólares de OpenAI tras una nueva ronda que se situó entre las mayores del sector tecnológico. Los inversores esperan ampliamente que la empresa busque cotizar en bolsa más adelante este año.

La publicación también coronó una rápida serie de mejoras, ya que Opus 4.7 reaching llegó a los usuarios apenas un mes antes bajo su propia nube de dudas sobre los benchmarks. Desde entonces, Anthropic ha adelantado Mythos, un modelo mucho más potente que está reteniendo del público por preocupaciones de ciberseguridad.

Lee a continuación: Dogecoin Reserves Edge Up To 28B As Whale Support Stays Weak

Descargo de responsabilidad y advertencia de riesgos: La información proporcionada en este artículo es solo para propósitos educativos e informativos y se basa en la opinión del autor. No constituye asesoramiento financiero, de inversión, legal o fiscal. Los activos de criptomonedas son altamente volátiles y están sujetos a alto riesgo, incluido el riesgo de perder toda o una cantidad sustancial de su inversión. Operar o mantener activos cripto puede no ser adecuado para todos los inversores. Las opiniones expresadas en este artículo son únicamente las del autor/autores y no representan la política oficial o posición de Yellow, sus fundadores o sus ejecutivos. Siempre realice su propia investigación exhaustiva (D.Y.O.R.) y consulte a un profesional financiero licenciado antes de tomar cualquier decisión de inversión.
Anthropic dice que el nuevo Claude Opus 4.8 detecta cuatro veces más de sus errores | Yellow.com