Googles neues KI-Modell erreicht 1.000 Tokens pro Sekunde auf Nvidia-GPUs

Googles neues KI-Modell erreicht 1.000 Tokens pro Sekunde auf Nvidia-GPUs

Google DeepMind hat am 10. Juni 2026 DiffusionGemma veröffentlicht, ein neues Textgenerierungsmodell, das Text in parallelen Blöcken statt sequentiell erzeugt.

Das Unternehmen gibt an, dass es auf Nvidia-GPU-Hardware bis zu 1.000 Tokens pro Sekunde erreicht.

Laut einem Bericht zeigen DeepMinds Benchmarks, dass DiffusionGemma auf vergleichbarer Rechenleistung 4‑mal schneller läuft als frühere autoregressive Gemma-Modelle. Ein separater Benchmark-Bericht bestätigte einen 10‑fach höheren Token‑Durchsatz in Long-Context-Inferenztests, die auf Nvidia-Hardware durchgeführt wurden.

Wie DiffusionGemma funktioniert

Standard‑Large‑Language‑Modelle generieren jeweils ein Token. DiffusionGemma erzeugt ganze Textblöcke gleichzeitig mithilfe einer diffusionsbasierten Architektur. Dieser Ansatz reduziert die Latenz bei langen Ausgaben deutlich. DeepMind erklärt, dass sich das Modell während der Generierung bei komplexem Markdown und strukturierten Formaten selbst korrigiert.

Diese Fähigkeit richtet sich an Entwickler, die Code-Assistenten, Dokumentationstools und strukturierte Datenpipelines aufbauen. Das Modell ist für den lokalen Einsatz auf Nvidia-RTX-Consumer-GPUs und DGX-Enterprise-Systemen optimiert.

Auch lesen: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Hintergrund

Google DeepMind hat im vergangenen Jahr mehrere Gemma-Varianten veröffentlicht, die die Open-Weights-Modellfamilie für unterschiedliche Anwendungsfälle erweitern. DiffusionGemma markiert das erste Mal, dass DeepMind eine Diffusionsarchitektur für Textgenerierung innerhalb der Gemma-Reihe einsetzt.

Frühere Diffusionstextmodelle anderer Labore haben in Forschungskontexten Geschwindigkeitsvorteile gezeigt, aber nur begrenzte reale Einsätze gefunden. DeepMinds Veröffentlichung bringt diesen Ansatz in eine weit verbreitete Modellfamilie mit bestehendem Entwickler-Ökosystem.

Der Zeitpunkt folgt auf die Veröffentlichung von Claude Fable 5 durch Anthropic Anfang dieser Woche, das neue Bestwerte bei Aufgaben zu Logik und Programmierung setzte. DeepMinds Fokus auf reine Inferenzgeschwindigkeit auf Hardwareebene zielt auf eine andere Wettbewerbsebene ab und priorisiert Durchsatz für Einsätze mit hohem Volumen statt Benchmark-Werte.

Nvidia profitiert direkt. Die Optimierung für DGX und RTX festigt Nvidia-Hardware als Standardplattform für Inferenz von Spitzenmodellen auf lokaler Ebene.

Entscheidend wird sein, wie schnell Entwickler das Modell übernehmen und ob die Durchsatzwerte von DiffusionGemma auch auf Nicht-Nvidia-Hardware gehalten werden können.

Als Nächstes lesen: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear

Haftungsausschluss und Risikowarnung: Die in diesem Artikel bereitgestellten Informationen dienen nur Bildungs- und Informationszwecken und basieren auf der Meinung des Autors. Sie stellen keine Finanz-, Anlage-, Rechts- oder Steuerberatung dar. Kryptowährungsassets sind hochvolatil und unterliegen hohen Risiken, einschließlich des Risikos, Ihre gesamte oder einen erheblichen Teil Ihrer Investition zu verlieren. Der Handel oder das Halten von Krypto-Assets ist möglicherweise nicht für alle Anleger geeignet. Die in diesem Artikel geäußerten Ansichten sind ausschließlich die des Autors/der Autoren und repräsentieren nicht die offizielle Politik oder Position von Yellow, seinen Gründern oder seinen Führungskräften. Führen Sie immer Ihre eigenen gründlichen Recherchen (D.Y.O.R.) durch und konsultieren Sie einen lizenzierten Finanzprofi, bevor Sie eine Anlageentscheidung treffen.
Googles neues KI-Modell erreicht 1.000 Tokens pro Sekunde auf Nvidia-GPUs | Yellow.com