Google DeepMind udostępniło 10 czerwca 2026 r. DiffusionGemma, nowy model generowania tekstu, który tworzy tekst w równoległych blokach zamiast sekwencyjnie.
Firma podaje, że osiąga on do 1 000 tokenów na sekundę na sprzęcie GPU Nvidia.
Według raportu benchmarki DeepMind pokazują, że DiffusionGemma działa 4 razy szybciej niż wcześniejsze autoregresyjne modele Gemma przy równoważnej mocy obliczeniowej. Osobny raport z benchmarków potwierdził 10‑krotnie wyższą przepustowość tokenów w testach wnioskowania z długim kontekstem przeprowadzonych na sprzęcie Nvidii.
Jak działa DiffusionGemma
Standardowe duże modele językowe generują jeden token naraz. DiffusionGemma generuje całe bloki tekstu jednocześnie, wykorzystując architekturę opartą na dyfuzji. Takie podejście znacząco zmniejsza opóźnienia przy długich wynikach. DeepMind podaje, że model samodzielnie koryguje złożony markdown i złożone formaty strukturalne w trakcie generowania.
Ta funkcja jest skierowana do deweloperów budujących asystentów kodu, narzędzia dokumentacyjne i potoki danych strukturalnych. Model jest zoptymalizowany pod kątem lokalnego wdrożenia na konsumenckich GPU Nvidia RTX oraz systemach korporacyjnych DGX.
Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay
Tło
Google DeepMind w ciągu ostatniego roku wypuściło kilka wariantów Gemma, z których każdy rozszerza rodzinę modeli z otwartymi wagami na różne przypadki użycia. DiffusionGemma oznacza pierwszy raz, gdy DeepMind zastosowało architekturę dyfuzyjną do generowania tekstu w linii Gemma.
Wcześniejsze modele tekstowe oparte na dyfuzji z innych laboratoriów wykazywały przewagi szybkościowe w warunkach badawczych, ale miały ograniczone wdrożenia w świecie rzeczywistym. Wydanie DeepMind przenosi to podejście do szeroko używanej rodziny modeli z istniejącymi narzędziami deweloperskimi.
Moment premiery następuje po wydaniu Claude Fable 5 przez Anthropic na początku tego tygodnia, który ustanowił nowe benchmarki w zadaniach związanych z wnioskowaniem i kodowaniem. Skupienie DeepMind na surowej szybkości wnioskowania na poziomie sprzętu celuje w inny wymiar konkurencji, priorytetowo traktując przepustowość dla wdrożeń na dużą skalę zamiast wyników w benchmarkach.
Nvidia korzysta bezpośrednio. Optymalizacja pod DGX i RTX umacnia sprzęt Nvidii jako domyślną platformę dla wnioskowania modeli czołowych na poziomie lokalnym.
Kluczowe będzie tempo adopcji przez deweloperów oraz to, czy wyniki przepustowości DiffusionGemma utrzymają się na konfiguracjach sprzętowych innych niż Nvidia.
Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear





