Google's nieuwe AI-model haalt 1.000 tokens per seconde op Nvidia GPU's

Google's nieuwe AI-model haalt 1.000 tokens per seconde op Nvidia GPU's

Google DeepMind heeft op 10 juni 2026 DiffusionGemma uitgebracht, een nieuw tekstgeneratiemodel dat tekst in parallelle blokken produceert in plaats van sequentieel.

Het bedrijf zegt dat het tot 1.000 tokens per seconde haalt op Nvidia GPU-hardware.

Volgens een rapport tonen de benchmarks van DeepMind aan dat DiffusionGemma 4x sneller draait dan eerdere autoregressieve Gemma‑modellen op vergelijkbare rekenkracht. Een afzonderlijk benchmarkrapport bevestigde 10x hogere token‑throughput in lang‑context inferentietests die op Nvidia‑hardware zijn uitgevoerd.

Hoe DiffusionGemma werkt

Standaard grote taalmodellen genereren één token per keer. DiffusionGemma genereert volledige tekstblokken tegelijk met behulp van een diffusiegebaseerde architectuur. Deze aanpak verlaagt de latentie sterk bij lange outputs. DeepMind stelt dat het model complexe markdown en gestructureerde formaten tijdens de generatie zelf corrigeert.

Die mogelijkheid is gericht op ontwikkelaars die code‑assistenten, documentatietools en gestructureerde datapijplijnen bouwen. Het model is geoptimaliseerd voor lokale implementatie op Nvidia RTX‑consumenten‑GPU's en DGX‑enterprise‑systemen.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Achtergrond

Google DeepMind heeft het afgelopen jaar verschillende Gemma‑varianten uitgebracht, die elk de open‑weights‑modelfamilie voor verschillende use‑cases uitbreiden. DiffusionGemma markeert de eerste keer dat DeepMind een diffusie‑architectuur toepast op tekstgeneratie binnen de Gemma‑lijn.

Eerdere diffusietekstmodellen van andere labs hebben snelheidsvoordelen laten zien in onderzoeksomgevingen, maar beperkte inzet in de praktijk. De release van DeepMind brengt deze aanpak naar een breed gebruikte modelfamilie met bestaande ontwikkelaarstooling.

De timing volgt op de release van Anthropic’s Claude Fable 5 eerder deze week, dat nieuwe benchmarks neerzette op redeneer‑ en coderingstaken. DeepMinds focus op ruwe inferentiesnelheid op hardwareniveau richt zich op een andere concurrentiedimensie, met prioriteit voor throughput bij grootschalige inzet in plaats van benchmarkscores.

Nvidia profiteert direct. De optimalisatie voor DGX en RTX verstevigt Nvidia‑hardware als het standaardplatform voor frontier‑modelinferentie op lokaal niveau.

Wat in de gaten te houden valt, is de snelheid van adoptie door ontwikkelaars en of de throughput‑cijfers van DiffusionGemma standhouden op niet‑Nvidia‑hardwareconfiguraties.

Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear

Disclaimer en risicowaarschuwing: De informatie in dit artikel is uitsluitend voor educatieve en informatieve doeleinden en is gebaseerd op de mening van de auteur. Het vormt geen financieel, investerings-, juridisch of belastingadvies. Cryptocurrency-assets zijn zeer volatiel en onderhevig aan hoog risico, inclusief het risico om uw gehele of een substantieel deel van uw investering te verliezen. Het handelen in of aanhouden van crypto-assets is mogelijk niet geschikt voor alle beleggers. De meningen die in dit artikel worden geuit zijn uitsluitend die van de auteur(s) en vertegenwoordigen niet het officiële beleid of standpunt van Yellow, haar oprichters of haar leidinggevenden. Voer altijd uw eigen grondig onderzoek uit (D.Y.O.R.) en raadpleeg een gelicentieerde financiële professional voordat u een investeringsbeslissing neemt.
Google's nieuwe AI-model haalt 1.000 tokens per seconde op Nvidia GPU's | Yellow.com