Novo modelo de IA do Google atinge 1.000 tokens por segundo em GPUs Nvidia

Google DeepMind lançou o DiffusionGemma em 10 de junho de 2026, um novo modelo de geração de texto que produz texto em blocos paralelos em vez de sequencialmente.

A empresa afirma que ele alcança até 1.000 tokens por segundo em hardware de GPU da Nvidia.

De acordo com um relatório, os benchmarks do DeepMind mostram que o DiffusionGemma é 4x mais rápido que os modelos autorregressivos Gemma anteriores no mesmo nível de computação. Um relatório de benchmark separado confirmou um throughput de tokens 10x maior em testes de inferência de contexto longo realizados em hardware Nvidia.

Como o DiffusionGemma funciona

Modelos de linguagem grandes padrão geram um token por vez. O DiffusionGemma gera blocos inteiros de texto simultaneamente usando uma arquitetura baseada em difusão. Essa abordagem reduz fortemente a latência para saídas longas. O DeepMind afirma que o modelo se autocorrige em markdown complexo e formatos estruturados durante a geração.

Esse recurso é voltado para desenvolvedores que criam assistentes de código, ferramentas de documentação e pipelines de dados estruturados. O modelo é otimizado para implantação local em GPUs Nvidia RTX para consumidor e sistemas corporativos DGX.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Contexto

O Google DeepMind lançou várias variantes do Gemma no ano passado, cada uma expandindo a família de modelos de pesos abertos para diferentes casos de uso. O DiffusionGemma marca a primeira vez que o DeepMind aplica uma arquitetura de difusão à geração de texto dentro da linha Gemma.

Modelos de texto baseados em difusão anteriores, de outros laboratórios, mostraram vantagens de velocidade em cenários de pesquisa, mas implantação limitada no mundo real. O lançamento do DeepMind leva essa abordagem a uma família de modelos amplamente usada, com ferramentas de desenvolvedor já existentes.

O momento segue o lançamento, pela Anthropic, do Claude Fable 5 no início desta semana, que definiu novos benchmarks em tarefas de raciocínio e programação. O foco do DeepMind em velocidade bruta de inferência no nível de hardware mira uma dimensão competitiva diferente, priorizando throughput para implantação em grande volume em vez de pontuações de benchmark.

A Nvidia se beneficia diretamente. A otimização para DGX e RTX consolida o hardware Nvidia como a plataforma padrão para inferência de modelos de fronteira em nível local.

O que vale observar é a velocidade de adoção pelos desenvolvedores e se os números de throughput do DiffusionGemma se mantêm em configurações de hardware que não sejam Nvidia.