Il nuovo modello AI di Google raggiunge 1.000 token al secondo su GPU Nvidia

Il nuovo modello AI di Google raggiunge 1.000 token al secondo su GPU Nvidia

Google DeepMind ha rilasciato DiffusionGemma il 10 giugno 2026, un nuovo modello di generazione di testo che produce testo in blocchi paralleli invece che in modo sequenziale.

L'azienda afferma che raggiunge fino a 1.000 token al secondo sull'hardware GPU Nvidia.

Secondo un rapporto, i benchmark di DeepMind mostrano che DiffusionGemma funziona 4 volte più velocemente dei precedenti modelli autoregressivi Gemma con lo stesso livello di calcolo. Un rapporto di benchmark separato ha confermato una velocità di throughput dei token 10 volte superiore nei test di inferenza su contesti lunghi condotti su hardware Nvidia.

Come funziona DiffusionGemma

I tradizionali large language model generano un token alla volta. DiffusionGemma genera interi blocchi di testo simultaneamente utilizzando un'architettura basata sulla diffusione. Questo approccio riduce drasticamente la latenza per output lunghi. DeepMind afferma che il modello autocorregge durante la generazione markdown complessi e formati strutturati.

Questa capacità è pensata per gli sviluppatori che costruiscono assistenti per il codice, strumenti di documentazione e pipeline di dati strutturati. Il modello è ottimizzato per la distribuzione locale su GPU consumer Nvidia RTX e sistemi enterprise DGX.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Contesto

Google DeepMind ha rilasciato diverse varianti Gemma nell'ultimo anno, ognuna delle quali ha ampliato la famiglia di modelli a pesi aperti per diversi casi d'uso. DiffusionGemma segna la prima volta che DeepMind applica un'architettura di diffusione alla generazione di testo all'interno della linea Gemma.

Precedenti modelli di testo basati sulla diffusione, sviluppati da altri laboratori, hanno mostrato vantaggi di velocità in contesti di ricerca ma una distribuzione limitata nel mondo reale. Il rilascio di DeepMind porta questo approccio in una famiglia di modelli ampiamente utilizzata, con strumenti per sviluppatori già esistenti.

Il tempismo segue il rilascio, da parte di Anthropic, di Claude Fable 5 all'inizio di questa settimana, che ha stabilito nuovi benchmark per compiti di ragionamento e coding. L'attenzione di DeepMind sulla pura velocità di inferenza a livello di hardware punta a una dimensione competitiva diversa, privilegiando il throughput per distribuzioni ad alto volume piuttosto che i punteggi di benchmark.

Nvidia ne beneficia direttamente. L'ottimizzazione per DGX e RTX consolida l'hardware Nvidia come piattaforma predefinita per l'inferenza dei modelli di frontiera a livello locale.

Da osservare saranno la velocità di adozione da parte degli sviluppatori e se le prestazioni di throughput di DiffusionGemma si manterranno anche su configurazioni hardware non Nvidia.

Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear

Disclaimer e avvertenza sui rischi: Le informazioni fornite in questo articolo sono solo per scopi educativi e informativi e sono basate sull'opinione dell'autore. Non costituiscono consulenza finanziaria, di investimento, legale o fiscale. Gli asset di criptovaluta sono altamente volatili e soggetti ad alto rischio, incluso il rischio di perdere tutto o una parte sostanziale del tuo investimento. Il trading o il possesso di asset crypto potrebbe non essere adatto a tutti gli investitori. Le opinioni espresse in questo articolo sono esclusivamente quelle dell'autore/autori e non rappresentano la politica ufficiale o la posizione di Yellow, dei suoi fondatori o dei suoi dirigenti. Conduci sempre la tua ricerca approfondita (D.Y.O.R.) e consulta un professionista finanziario autorizzato prima di prendere qualsiasi decisione di investimento.
Il nuovo modello AI di Google raggiunge 1.000 token al secondo su GPU Nvidia | Yellow.com