Google DeepMind hat am 10. Juni 2026 DiffusionGemma veröffentlicht, ein neues Textgenerierungsmodell, das Text in parallelen Blöcken statt sequentiell erzeugt.
Das Unternehmen gibt an, dass es auf Nvidia-GPU-Hardware bis zu 1.000 Tokens pro Sekunde erreicht.
Laut einem Bericht zeigen DeepMinds Benchmarks, dass DiffusionGemma auf vergleichbarer Rechenleistung 4‑mal schneller läuft als frühere autoregressive Gemma-Modelle. Ein separater Benchmark-Bericht bestätigte einen 10‑fach höheren Token‑Durchsatz in Long-Context-Inferenztests, die auf Nvidia-Hardware durchgeführt wurden.
Wie DiffusionGemma funktioniert
Standard‑Large‑Language‑Modelle generieren jeweils ein Token. DiffusionGemma erzeugt ganze Textblöcke gleichzeitig mithilfe einer diffusionsbasierten Architektur. Dieser Ansatz reduziert die Latenz bei langen Ausgaben deutlich. DeepMind erklärt, dass sich das Modell während der Generierung bei komplexem Markdown und strukturierten Formaten selbst korrigiert.
Diese Fähigkeit richtet sich an Entwickler, die Code-Assistenten, Dokumentationstools und strukturierte Datenpipelines aufbauen. Das Modell ist für den lokalen Einsatz auf Nvidia-RTX-Consumer-GPUs und DGX-Enterprise-Systemen optimiert.
Auch lesen: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay
Hintergrund
Google DeepMind hat im vergangenen Jahr mehrere Gemma-Varianten veröffentlicht, die die Open-Weights-Modellfamilie für unterschiedliche Anwendungsfälle erweitern. DiffusionGemma markiert das erste Mal, dass DeepMind eine Diffusionsarchitektur für Textgenerierung innerhalb der Gemma-Reihe einsetzt.
Frühere Diffusionstextmodelle anderer Labore haben in Forschungskontexten Geschwindigkeitsvorteile gezeigt, aber nur begrenzte reale Einsätze gefunden. DeepMinds Veröffentlichung bringt diesen Ansatz in eine weit verbreitete Modellfamilie mit bestehendem Entwickler-Ökosystem.
Der Zeitpunkt folgt auf die Veröffentlichung von Claude Fable 5 durch Anthropic Anfang dieser Woche, das neue Bestwerte bei Aufgaben zu Logik und Programmierung setzte. DeepMinds Fokus auf reine Inferenzgeschwindigkeit auf Hardwareebene zielt auf eine andere Wettbewerbsebene ab und priorisiert Durchsatz für Einsätze mit hohem Volumen statt Benchmark-Werte.
Nvidia profitiert direkt. Die Optimierung für DGX und RTX festigt Nvidia-Hardware als Standardplattform für Inferenz von Spitzenmodellen auf lokaler Ebene.
Entscheidend wird sein, wie schnell Entwickler das Modell übernehmen und ob die Durchsatzwerte von DiffusionGemma auch auf Nicht-Nvidia-Hardware gehalten werden können.
Als Nächstes lesen: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear





