Google DeepMind ha rilasciato DiffusionGemma il 10 giugno 2026, un nuovo modello di generazione di testo che produce testo in blocchi paralleli invece che in modo sequenziale.
L'azienda afferma che raggiunge fino a 1.000 token al secondo sull'hardware GPU Nvidia.
Secondo un rapporto, i benchmark di DeepMind mostrano che DiffusionGemma funziona 4 volte più velocemente dei precedenti modelli autoregressivi Gemma con lo stesso livello di calcolo. Un rapporto di benchmark separato ha confermato una velocità di throughput dei token 10 volte superiore nei test di inferenza su contesti lunghi condotti su hardware Nvidia.
Come funziona DiffusionGemma
I tradizionali large language model generano un token alla volta. DiffusionGemma genera interi blocchi di testo simultaneamente utilizzando un'architettura basata sulla diffusione. Questo approccio riduce drasticamente la latenza per output lunghi. DeepMind afferma che il modello autocorregge durante la generazione markdown complessi e formati strutturati.
Questa capacità è pensata per gli sviluppatori che costruiscono assistenti per il codice, strumenti di documentazione e pipeline di dati strutturati. Il modello è ottimizzato per la distribuzione locale su GPU consumer Nvidia RTX e sistemi enterprise DGX.
Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay
Contesto
Google DeepMind ha rilasciato diverse varianti Gemma nell'ultimo anno, ognuna delle quali ha ampliato la famiglia di modelli a pesi aperti per diversi casi d'uso. DiffusionGemma segna la prima volta che DeepMind applica un'architettura di diffusione alla generazione di testo all'interno della linea Gemma.
Precedenti modelli di testo basati sulla diffusione, sviluppati da altri laboratori, hanno mostrato vantaggi di velocità in contesti di ricerca ma una distribuzione limitata nel mondo reale. Il rilascio di DeepMind porta questo approccio in una famiglia di modelli ampiamente utilizzata, con strumenti per sviluppatori già esistenti.
Il tempismo segue il rilascio, da parte di Anthropic, di Claude Fable 5 all'inizio di questa settimana, che ha stabilito nuovi benchmark per compiti di ragionamento e coding. L'attenzione di DeepMind sulla pura velocità di inferenza a livello di hardware punta a una dimensione competitiva diversa, privilegiando il throughput per distribuzioni ad alto volume piuttosto che i punteggi di benchmark.
Nvidia ne beneficia direttamente. L'ottimizzazione per DGX e RTX consolida l'hardware Nvidia come piattaforma predefinita per l'inferenza dei modelli di frontiera a livello locale.
Da osservare saranno la velocità di adozione da parte degli sviluppatori e se le prestazioni di throughput di DiffusionGemma si manterranno anche su configurazioni hardware non Nvidia.
Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear





