Google's nieuwe AI-model haalt 1.000 tokens per seconde op Nvidia GPU's

Google DeepMind heeft op 10 juni 2026 DiffusionGemma uitgebracht, een nieuw tekstgeneratiemodel dat tekst in parallelle blokken produceert in plaats van sequentieel.

Het bedrijf zegt dat het tot 1.000 tokens per seconde haalt op Nvidia GPU-hardware.

Volgens een rapport tonen de benchmarks van DeepMind aan dat DiffusionGemma 4x sneller draait dan eerdere autoregressieve Gemma‑modellen op vergelijkbare rekenkracht. Een afzonderlijk benchmarkrapport bevestigde 10x hogere token‑throughput in lang‑context inferentietests die op Nvidia‑hardware zijn uitgevoerd.

Hoe DiffusionGemma werkt

Standaard grote taalmodellen genereren één token per keer. DiffusionGemma genereert volledige tekstblokken tegelijk met behulp van een diffusiegebaseerde architectuur. Deze aanpak verlaagt de latentie sterk bij lange outputs. DeepMind stelt dat het model complexe markdown en gestructureerde formaten tijdens de generatie zelf corrigeert.

Die mogelijkheid is gericht op ontwikkelaars die code‑assistenten, documentatietools en gestructureerde datapijplijnen bouwen. Het model is geoptimaliseerd voor lokale implementatie op Nvidia RTX‑consumenten‑GPU's en DGX‑enterprise‑systemen.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Achtergrond

Google DeepMind heeft het afgelopen jaar verschillende Gemma‑varianten uitgebracht, die elk de open‑weights‑modelfamilie voor verschillende use‑cases uitbreiden. DiffusionGemma markeert de eerste keer dat DeepMind een diffusie‑architectuur toepast op tekstgeneratie binnen de Gemma‑lijn.

Eerdere diffusietekstmodellen van andere labs hebben snelheidsvoordelen laten zien in onderzoeksomgevingen, maar beperkte inzet in de praktijk. De release van DeepMind brengt deze aanpak naar een breed gebruikte modelfamilie met bestaande ontwikkelaarstooling.

De timing volgt op de release van Anthropic’s Claude Fable 5 eerder deze week, dat nieuwe benchmarks neerzette op redeneer‑ en coderingstaken. DeepMinds focus op ruwe inferentiesnelheid op hardwareniveau richt zich op een andere concurrentiedimensie, met prioriteit voor throughput bij grootschalige inzet in plaats van benchmarkscores.

Nvidia profiteert direct. De optimalisatie voor DGX en RTX verstevigt Nvidia‑hardware als het standaardplatform voor frontier‑modelinferentie op lokaal niveau.

Wat in de gaten te houden valt, is de snelheid van adoptie door ontwikkelaars en of de throughput‑cijfers van DiffusionGemma standhouden op niet‑Nvidia‑hardwareconfiguraties.