El nuevo modelo de IA de Google alcanza 1.000 tokens por segundo en GPUs de Nvidia

El nuevo modelo de IA de Google alcanza 1.000 tokens por segundo en GPUs de Nvidia

Google DeepMind lanzó DiffusionGemma el 10 de junio de 2026, un nuevo modelo de generación de texto que produce texto en bloques paralelos en lugar de secuencialmente.

La empresa afirma que alcanza hasta 1.000 tokens por segundo en hardware GPU de Nvidia.

Según un informe, los benchmarks de DeepMind muestran que DiffusionGemma funciona 4 veces más rápido que los modelos autorregresivos Gemma anteriores con cómputo equivalente. Un informe de benchmark independiente confirmó un rendimiento de tokens 10 veces mayor en pruebas de inferencia de contexto largo realizadas en hardware de Nvidia.

Cómo funciona DiffusionGemma

Los modelos de lenguaje grandes estándar generan un token a la vez. DiffusionGemma genera bloques de texto completos de forma simultánea usando una arquitectura basada en difusión. Este enfoque reduce drásticamente la latencia para salidas largas. DeepMind afirma que el modelo se autocorrige durante la generación en formatos complejos de markdown y estructuras.

Esa capacidad está dirigida a desarrolladores que crean asistentes de código, herramientas de documentación y canalizaciones de datos estructurados. El modelo está optimizado para implementación local en GPUs de consumo Nvidia RTX y sistemas empresariales DGX.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Antecedentes

Google DeepMind ha lanzado varias variantes de Gemma durante el último año, ampliando la familia de modelos de pesos abiertos para diferentes casos de uso. DiffusionGemma marca la primera vez que DeepMind aplica una arquitectura de difusión a la generación de texto dentro de la línea Gemma.

Modelos de texto de difusión anteriores de otros laboratorios han mostrado ventajas de velocidad en entornos de investigación pero una implementación limitada en el mundo real. El lanzamiento de DeepMind lleva este enfoque a una familia de modelos ampliamente utilizada, con herramientas de desarrollo ya existentes.

El momento coincide con el lanzamiento de Claude Fable 5 de Anthropic a principios de esta semana, que estableció nuevos benchmarks en tareas de razonamiento y programación. El enfoque de DeepMind en la velocidad bruta de inferencia a nivel de hardware apunta a una dimensión competitiva diferente, priorizando el rendimiento para implementaciones de alto volumen en lugar de las puntuaciones de benchmark.

Nvidia se beneficia directamente. La optimización para DGX y RTX consolida el hardware de Nvidia como la plataforma predeterminada para la inferencia de modelos de frontera a nivel local.

Lo que queda por ver es la velocidad de adopción por parte de los desarrolladores y si las cifras de rendimiento de DiffusionGemma se mantienen en configuraciones de hardware que no son de Nvidia.

Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear

Descargo de responsabilidad y advertencia de riesgos: La información proporcionada en este artículo es solo para propósitos educativos e informativos y se basa en la opinión del autor. No constituye asesoramiento financiero, de inversión, legal o fiscal. Los activos de criptomonedas son altamente volátiles y están sujetos a alto riesgo, incluido el riesgo de perder toda o una cantidad sustancial de su inversión. Operar o mantener activos cripto puede no ser adecuado para todos los inversores. Las opiniones expresadas en este artículo son únicamente las del autor/autores y no representan la política oficial o posición de Yellow, sus fundadores o sus ejecutivos. Siempre realice su propia investigación exhaustiva (D.Y.O.R.) y consulte a un profesional financiero licenciado antes de tomar cualquier decisión de inversión.
Últimas noticias
Ver todas las noticias
El nuevo modelo de IA de Google alcanza 1.000 tokens por segundo en GPUs de Nvidia | Yellow.com