Google DeepMind bracht op 10 juni 2026 DiffusionGemma uit, een nieuw tekstgeneratiemodel dat tekst in parallelle blokken produceert in plaats van sequentieel.
Het bedrijf zegt dat het tot 1.000 tokens per seconde behaalt op Nvidia GPU-hardware.
Volgens een rapport tonen benchmarks van DeepMind dat DiffusionGemma 4x sneller draait dan eerdere autoregressieve Gemma-modellen bij gelijkwaardige rekenkracht. Een apart benchmarkrapport bevestigde 10x hogere token-throughput in long-context inferentietests die op Nvidia-hardware zijn uitgevoerd.
Hoe DiffusionGemma werkt
Standaard grote taalmodellen genereren één token per keer. DiffusionGemma genereert volledige tekstblokken tegelijk met behulp van een diffusiemodel-architectuur. Deze aanpak vermindert de latentie sterk bij lange outputs. DeepMind stelt dat het model complexe markdown en gestructureerde formaten tijdens de generatie zelf corrigeert.
Die capaciteit is gericht op ontwikkelaars die code-assistenten, documentatietools en gestructureerde datapijplijnen bouwen. Het model is geoptimaliseerd voor lokale implementatie op Nvidia RTX-consument-GPU's en DGX-enterprisesystemen.
Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay
Achtergrond
Google DeepMind heeft het afgelopen jaar verschillende Gemma-varianten uitgebracht, die elk de open-weights-modelfamilie uitbreiden voor verschillende use-cases. DiffusionGemma markeert de eerste keer dat DeepMind een diffusie-architectuur toepast op tekstgeneratie binnen de Gemma-lijn.
Eerdere diffusion-gebaseerde tekstmodellen van andere labs lieten snelheidsvoordelen zien in onderzoeksomgevingen, maar hadden beperkte inzet in de praktijk. De release van DeepMind brengt deze benadering naar een veelgebruikte modelfamilie met bestaande ontwikkelaarstools.
De timing volgt op de release van Anthropic's Claude Fable 5 eerder deze week, die nieuwe benchmarks vestigde op redeneer- en coderingstaken. DeepMind's focus op ruwe inferentiesnelheid op hardwareniveau richt zich op een andere competitieve dimensie, waarbij doorvoersnelheid voor grootschalige inzet belangrijker is dan benchmark-scores.
Nvidia profiteert direct. De optimalisatie voor DGX en RTX verstevigt Nvidia-hardware als het standaardplatform voor inferentie van frontier-modellen op lokaal niveau.
Wat in de gaten te houden is, is de snelheid waarmee ontwikkelaars het model adopteren en of de throughputcijfers van DiffusionGemma standhouden op niet-Nvidia-hardwareconfiguraties.
Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear





