Novo modelo de IA do Google atinge 1.000 tokens por segundo em GPUs Nvidia

Novo modelo de IA do Google atinge 1.000 tokens por segundo em GPUs Nvidia

Google DeepMind lançou o DiffusionGemma em 10 de junho de 2026, um novo modelo de geração de texto que produz texto em blocos paralelos em vez de sequencialmente.

A empresa afirma que ele atinge até 1.000 tokens por segundo em hardware de GPU Nvidia.

De acordo com um relatório, os benchmarks da DeepMind mostram que o DiffusionGemma roda 4x mais rápido do que os modelos autorregressivos Gemma anteriores no mesmo nível de computação. Um relatório de benchmark separado confirmou rendimento de tokens 10x maior em testes de inferência de longo contexto conduzidos em hardware Nvidia.

Como o DiffusionGemma funciona

Modelos de linguagem grandes padrão geram um token por vez. O DiffusionGemma gera blocos inteiros de texto simultaneamente usando uma arquitetura baseada em difusão. A abordagem reduz drasticamente a latência para saídas longas. A DeepMind afirma que o modelo se autocorrige em markdown complexo e formatos estruturados durante a geração.

Esse recurso é direcionado a desenvolvedores que constroem assistentes de código, ferramentas de documentação e pipelines de dados estruturados. O modelo é otimizado para implantação local em GPUs Nvidia RTX de consumo e sistemas corporativos DGX.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Contexto

A Google DeepMind lançou várias variantes do Gemma no último ano, cada uma expandindo a família de modelos de pesos abertos para diferentes casos de uso. O DiffusionGemma marca a primeira vez que a DeepMind aplica uma arquitetura de difusão à geração de texto dentro da linha Gemma.

Modelos de texto por difusão anteriores de outros laboratórios mostraram vantagens de velocidade em ambientes de pesquisa, mas implantação limitada no mundo real. O lançamento da DeepMind leva essa abordagem para uma família de modelos amplamente utilizada, com ferramentas de desenvolvimento já existentes.

O momento segue o lançamento do Claude Fable 5 da Anthropic no início desta semana, que definiu novos benchmarks em tarefas de raciocínio e programação. O foco da DeepMind na velocidade bruta de inferência em nível de hardware mira uma dimensão competitiva diferente, priorizando throughput para implantação em alto volume em vez de pontuações de benchmark.

A Nvidia se beneficia diretamente. A otimização para DGX e RTX consolida o hardware Nvidia como a plataforma padrão para inferência de modelos de ponta em nível local.

O que observar é a velocidade de adoção pelos desenvolvedores e se os números de throughput do DiffusionGemma se mantêm em configurações de hardware que não sejam Nvidia.

Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear

Disclaimer e aviso de risco: As informações fornecidas neste artigo são apenas para fins educacionais e informativos e baseiam-se na opinião do autor. Não constituem aconselhamento financeiro, de investimento, legal ou fiscal. Os ativos de criptomoeda são altamente voláteis e sujeitos a alto risco, incluindo o risco de perder todo ou uma quantia substancial do seu investimento. Negociar ou deter ativos cripto pode não ser adequado para todos os investidores. As opiniões expressas neste artigo são exclusivamente do(s) autor(es) e não representam a política oficial ou posição da Yellow, seus fundadores ou executivos. Sempre conduza a sua própria pesquisa minuciosa (D.Y.O.R.) e consulte um profissional financeiro licenciado antes de tomar qualquer decisão de investimento.
Novo modelo de IA do Google atinge 1.000 tokens por segundo em GPUs Nvidia | Yellow.com