Googles neues KI-Modell erreicht 1.000 Tokens pro Sekunde auf Nvidia-GPUs

Google DeepMind hat am 10. Juni 2026 DiffusionGemma veröffentlicht, ein neues Textgenerierungsmodell, das Text in parallelen Blöcken statt sequenziell erzeugt.

Laut Unternehmen erreicht es auf Nvidia-GPU-Hardware bis zu 1.000 Tokens pro Sekunde.

Einem Bericht zufolge zeigen DeepMinds Benchmarks, dass DiffusionGemma auf vergleichbarer Rechenleistung 4‑mal schneller läuft als frühere autoregressive Gemma-Modelle. Ein separater Benchmark-Bericht bestätigte einen 10‑fach höheren Token-Durchsatz in Langkontext-Inferenztests auf Nvidia-Hardware.

Wie DiffusionGemma funktioniert

Standard-LLMs erzeugen ein Token nach dem anderen. DiffusionGemma erzeugt ganze Textblöcke gleichzeitig mithilfe einer diffusionsbasierten Architektur. Der Ansatz reduziert die Latenz bei langen Ausgaben deutlich. DeepMind gibt an, dass das Modell komplexes Markdown und strukturierte Formate während der Generierung selbst korrigiert.

Diese Fähigkeit richtet sich an Entwickler, die Code-Assistenten, Dokumentationstools und strukturierte Datenpipelines aufbauen. Das Modell ist für die lokale Ausführung auf Nvidia-RTX-Consumer-GPUs und DGX-Enterprise-Systemen optimiert.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Hintergrund

Google DeepMind hat im vergangenen Jahr mehrere Gemma-Varianten veröffentlicht, die die Open-Weights-Modellfamilie für unterschiedliche Anwendungsfälle erweitern. DiffusionGemma markiert das erste Mal, dass DeepMind innerhalb der Gemma-Reihe eine Diffusionsarchitektur für Textgenerierung einsetzt.

Frühere Diffusions-Textmodelle anderer Labs zeigten in der Forschung Geschwindigkeitsvorteile, hatten jedoch begrenzte reale Einsätze. DeepMinds Veröffentlichung bringt den Ansatz in eine weit verbreitete Modellfamilie mit bestehendem Entwickler-Ökosystem.

Der Zeitpunkt folgt auf die Veröffentlichung von Claude Fable 5 durch Anthropic Anfang dieser Woche, das neue Bestwerte bei Aufgaben zu logischem Schlussfolgern und Programmierung setzte. DeepMinds Fokus auf rohe Inferenzgeschwindigkeit auf Hardwareebene zielt auf eine andere Wettbewerbsebene ab und priorisiert Durchsatz für Hochvolumen-Einsätze statt reiner Benchmarkwerte.

Nvidia profitiert direkt. Die Optimierung für DGX und RTX festigt Nvidia-Hardware als Standardplattform für Inferenz von Frontier-Modellen auf lokaler Ebene.

Beobachtet werden sollte, wie schnell Entwickler das Modell übernehmen und ob die Durchsatzwerte von DiffusionGemma auch auf Nicht-Nvidia-Hardwarekonfigurationen Bestand haben.