Nowy model AI Google osiąga 1 000 tokenów na sekundę na GPU Nvidii

Nowy model AI Google osiąga 1 000 tokenów na sekundę na GPU Nvidii

Google DeepMind udostępniło 10 czerwca 2026 r. DiffusionGemma, nowy model generowania tekstu, który tworzy tekst w równoległych blokach zamiast sekwencyjnie.

Firma podaje, że osiąga on do 1 000 tokenów na sekundę na sprzęcie GPU Nvidia.

Według raportu benchmarki DeepMind pokazują, że DiffusionGemma działa 4 razy szybciej niż wcześniejsze autoregresyjne modele Gemma przy równoważnej mocy obliczeniowej. Osobny raport z benchmarków potwierdził 10‑krotnie wyższą przepustowość tokenów w testach wnioskowania z długim kontekstem przeprowadzonych na sprzęcie Nvidii.

Jak działa DiffusionGemma

Standardowe duże modele językowe generują jeden token naraz. DiffusionGemma generuje całe bloki tekstu jednocześnie, wykorzystując architekturę opartą na dyfuzji. Takie podejście znacząco zmniejsza opóźnienia przy długich wynikach. DeepMind podaje, że model samodzielnie koryguje złożony markdown i złożone formaty strukturalne w trakcie generowania.

Ta funkcja jest skierowana do deweloperów budujących asystentów kodu, narzędzia dokumentacyjne i potoki danych strukturalnych. Model jest zoptymalizowany pod kątem lokalnego wdrożenia na konsumenckich GPU Nvidia RTX oraz systemach korporacyjnych DGX.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Tło

Google DeepMind w ciągu ostatniego roku wypuściło kilka wariantów Gemma, z których każdy rozszerza rodzinę modeli z otwartymi wagami na różne przypadki użycia. DiffusionGemma oznacza pierwszy raz, gdy DeepMind zastosowało architekturę dyfuzyjną do generowania tekstu w linii Gemma.

Wcześniejsze modele tekstowe oparte na dyfuzji z innych laboratoriów wykazywały przewagi szybkościowe w warunkach badawczych, ale miały ograniczone wdrożenia w świecie rzeczywistym. Wydanie DeepMind przenosi to podejście do szeroko używanej rodziny modeli z istniejącymi narzędziami deweloperskimi.

Moment premiery następuje po wydaniu Claude Fable 5 przez Anthropic na początku tego tygodnia, który ustanowił nowe benchmarki w zadaniach związanych z wnioskowaniem i kodowaniem. Skupienie DeepMind na surowej szybkości wnioskowania na poziomie sprzętu celuje w inny wymiar konkurencji, priorytetowo traktując przepustowość dla wdrożeń na dużą skalę zamiast wyników w benchmarkach.

Nvidia korzysta bezpośrednio. Optymalizacja pod DGX i RTX umacnia sprzęt Nvidii jako domyślną platformę dla wnioskowania modeli czołowych na poziomie lokalnym.

Kluczowe będzie tempo adopcji przez deweloperów oraz to, czy wyniki przepustowości DiffusionGemma utrzymają się na konfiguracjach sprzętowych innych niż Nvidia.

Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear

Zastrzeżenie i ostrzeżenie o ryzyku: Informacje zawarte w tym artykule służą wyłącznie celom edukacyjnym i informacyjnym i opierają się na opinii autora. Nie stanowią one porad finansowych, inwestycyjnych, prawnych czy podatkowych. Aktywa kryptowalutowe są bardzo zmienne i podlegają wysokiemu ryzyku, w tym ryzyku utraty całości lub znacznej części Twojej inwestycji. Handel lub posiadanie aktywów krypto może nie być odpowiednie dla wszystkich inwestorów. Poglądy wyrażone w tym artykule są wyłącznie poglądami autora/autorów i nie reprezentują oficjalnej polityki lub stanowiska Yellow, jej założycieli lub dyrektorów. Zawsze przeprowadź własne dokładne badania (D.Y.O.R.) i skonsultuj się z licencjonowanym specjalistą finansowym przed podjęciem jakiejkolwiek decyzji inwestycyjnej.