El nuevo modelo de IA de Google alcanza 1,000 tokens por segundo en GPUs de Nvidia

Google DeepMind lanzó DiffusionGemma el 10 de junio de 2026, un nuevo modelo de generación de texto que produce texto en bloques paralelos en lugar de secuencialmente.

La compañía afirma que alcanza hasta 1,000 tokens por segundo en hardware GPU de Nvidia.

Según un informe, los benchmarks de DeepMind muestran que DiffusionGemma funciona 4 veces más rápido que los modelos autoregresivos Gemma anteriores con el mismo cómputo. Un informe de benchmark independiente confirmó un rendimiento de tokens 10 veces mayor en pruebas de inferencia de contexto largo realizadas en hardware de Nvidia.

Cómo funciona DiffusionGemma

Los modelos de lenguaje grandes estándar generan un token a la vez. DiffusionGemma genera bloques de texto completos de forma simultánea utilizando una arquitectura basada en difusión. Este enfoque reduce drásticamente la latencia en salidas largas. DeepMind afirma que el modelo se autocorrige en formatos complejos de markdown y datos estructurados durante la generación.

Esa capacidad está dirigida a desarrolladores que construyen asistentes de código, herramientas de documentación y canalizaciones de datos estructurados. El modelo está optimizado para despliegue local en GPUs de consumo Nvidia RTX y en sistemas empresariales DGX.

También lee: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Contexto

Google DeepMind ha lanzado varias variantes de Gemma durante el último año, cada una ampliando la familia de modelos de pesos abiertos para diferentes casos de uso. DiffusionGemma marca la primera vez que DeepMind aplica una arquitectura de difusión a la generación de texto dentro de la línea Gemma.

Modelos de texto por difusión anteriores de otros laboratorios han mostrado ventajas de velocidad en entornos de investigación, pero con un despliegue limitado en el mundo real. El lanzamiento de DeepMind lleva este enfoque a una familia de modelos ampliamente utilizada que ya cuenta con herramientas para desarrolladores.

El momento coincide con el lanzamiento de Anthropic de Claude Fable 5 a principios de esta semana, que estableció nuevos benchmarks en tareas de razonamiento y programación. El enfoque de DeepMind en la velocidad de inferencia pura a nivel de hardware apunta a una dimensión competitiva diferente, priorizando el rendimiento para despliegues de alto volumen en lugar de las puntuaciones de benchmark.

Nvidia se beneficia directamente. La optimización para DGX y RTX consolida el hardware de Nvidia como la plataforma predeterminada para la inferencia de modelos de frontera a nivel local.

Lo que habrá que observar es la velocidad de adopción por parte de los desarrolladores y si las cifras de rendimiento de DiffusionGemma se mantienen en configuraciones de hardware que no sean de Nvidia.

Lee también: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear