Il nuovo modello di IA di Google raggiunge 1.000 token al secondo sulle GPU Nvidia

Google DeepMind ha rilasciato DiffusionGemma il 10 giugno 2026, un nuovo modello di generazione di testo che produce testo in blocchi paralleli invece che in modo sequenziale.

L’azienda afferma che raggiunge fino a 1.000 token al secondo sull’hardware GPU Nvidia.

Secondo un rapporto, i benchmark di DeepMind mostrano che DiffusionGemma è 4 volte più veloce rispetto ai precedenti modelli autoregressivi Gemma a parità di potenza di calcolo. Un rapporto di benchmark separato ha confermato un throughput di token 10 volte superiore nei test di inferenza con contesto lungo condotti su hardware Nvidia.

Come funziona DiffusionGemma

I modelli linguistici di grandi dimensioni standard generano un token alla volta. DiffusionGemma genera interi blocchi di testo simultaneamente utilizzando un’architettura basata sulla diffusione. L’approccio riduce in modo netto la latenza per output lunghi. DeepMind afferma che il modello si autocorregge durante la generazione per markdown complesso e formati strutturati.

Questa capacità è pensata per sviluppatori che costruiscono assistenti per il codice, strumenti di documentazione e pipeline di dati strutturati. Il modello è ottimizzato per l’esecuzione locale su GPU Nvidia RTX consumer e sistemi enterprise DGX.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Contesto

Google DeepMind ha rilasciato diverse varianti Gemma nell’ultimo anno, ampliando la famiglia di modelli a pesi aperti per casi d’uso differenti. DiffusionGemma segna la prima volta che DeepMind applica un’architettura di diffusione alla generazione di testo all’interno della linea Gemma.

Precedenti modelli di testo basati su diffusione sviluppati da altri laboratori hanno mostrato vantaggi di velocità in contesti di ricerca ma un impiego limitato nel mondo reale. Il rilascio di DeepMind porta questo approccio in una famiglia di modelli ampiamente utilizzata, con tooling per sviluppatori già esistente.

Il lancio arriva dopo l’uscita, all’inizio di questa settimana, di Claude Fable 5 di Anthropic, che ha stabilito nuovi benchmark per compiti di ragionamento e coding. L’attenzione di DeepMind sulla velocità di inferenza grezza a livello hardware punta a una dimensione competitiva diversa, privilegiando il throughput per distribuzioni ad alto volume invece dei punteggi di benchmark.

Nvidia ne trae un beneficio diretto. L’ottimizzazione per DGX e RTX consolida l’hardware Nvidia come piattaforma predefinita per l’inferenza di modelli di frontiera a livello locale.

Da osservare saranno la velocità di adozione da parte degli sviluppatori e se le prestazioni di throughput di DiffusionGemma si confermeranno anche su configurazioni hardware non Nvidia.