Nowy model AI Google osiąga 1 000 tokenów na sekundę na GPU Nvidia

Google DeepMind udostępniło 10 czerwca 2026 r. DiffusionGemma, nowy model generowania tekstu, który tworzy tekst w równoległych blokach zamiast sekwencyjnie.

Firma podaje, że model osiąga do 1 000 tokenów na sekundę na sprzęcie GPU Nvidia.

Według raportu benchmarki DeepMind pokazują, że DiffusionGemma działa 4 razy szybciej niż wcześniejsze autoregresyjne modele Gemma przy porównywalnych zasobach obliczeniowych. Oddzielny raport z testów potwierdził 10‑krotnie wyższą przepustowość tokenów w testach wnioskowania dla długiego kontekstu przeprowadzonych na sprzęcie Nvidia.

Jak działa DiffusionGemma

Standardowe duże modele językowe generują jeden token naraz. DiffusionGemma generuje całe bloki tekstu jednocześnie, wykorzystując architekturę opartą na dyfuzji. Takie podejście znacząco zmniejsza opóźnienia przy długich odpowiedziach. DeepMind podaje, że model samokoryguje złożony markdown i ustrukturyzowane formaty podczas generowania.

Ta funkcja jest skierowana do deweloperów budujących asystentów kodu, narzędzia dokumentacyjne i potoki danych ustrukturyzowanych. Model jest zoptymalizowany pod kątem lokalnego wdrożenia na konsumenckich GPU Nvidia RTX oraz systemach korporacyjnych DGX.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Tło

Google DeepMind w ciągu ostatniego roku udostępniło kilka wariantów Gemma, z których każdy rozszerza rodzinę modeli z otwartymi wagami dla różnych zastosowań. DiffusionGemma to pierwszy raz, gdy DeepMind zastosowało architekturę dyfuzyjną do generowania tekstu w ramach linii Gemma.

Wcześniejsze dyfuzyjne modele tekstowe z innych laboratoriów wykazywały przewagi szybkości w warunkach badawczych, ale miały ograniczone wdrożenia w realnym świecie. Wydanie DeepMind przenosi to podejście do szeroko używanej rodziny modeli z istniejącym zestawem narzędzi dla deweloperów.

Moment premiery następuje po wydaniu w tym tygodniu przez Anthropic modelu Claude Fable 5, który ustanowił nowe benchmarki w zadaniach rozumowania i kodowania. Skupienie DeepMind na surowej szybkości wnioskowania na poziomie sprzętu celuje w inny wymiar konkurencji, priorytetyzując przepustowość dla wdrożeń o dużej skali zamiast wyników benchmarków.

Nvidia korzysta z tego bezpośrednio. Optymalizacja pod DGX i RTX umacnia sprzęt Nvidia jako domyślną platformę do wykonywania wnioskowań modeli czołowych na poziomie lokalnym.

Kluczowe będzie tempo adopcji przez deweloperów oraz to, czy deklarowana przepustowość DiffusionGemma utrzyma się na konfiguracjach sprzętowych innych niż Nvidia.