Le nouveau modèle d’IA de Google atteint 1 000 tokens par seconde sur les GPU Nvidia

Google DeepMind a publié DiffusionGemma le 10 juin 2026, un nouveau modèle de génération de texte qui produit le texte en blocs parallèles plutôt que séquentiels.

L’entreprise indique qu’il atteint jusqu’à 1 000 tokens par seconde sur le matériel GPU Nvidia.

Selon un rapport, les benchmarks de DeepMind montrent que DiffusionGemma fonctionne 4 fois plus vite que les modèles autorégressifs Gemma précédents à puissance de calcul équivalente. Un autre rapport de benchmark a confirmé un débit de tokens 10 fois supérieur dans des tests d’inférence à long contexte réalisés sur du matériel Nvidia.

Comment fonctionne DiffusionGemma

Les grands modèles de langage standard génèrent un token à la fois. DiffusionGemma génère des blocs de texte entiers simultanément grâce à une architecture basée sur la diffusion. Cette approche réduit fortement la latence pour les sorties longues. DeepMind indique que le modèle s’auto-corrige sur le markdown complexe et les formats structurés pendant la génération.

Cette capacité vise les développeurs qui créent des assistants de code, des outils de documentation et des pipelines de données structurées. Le modèle est optimisé pour un déploiement local sur les GPU grand public Nvidia RTX et les systèmes d’entreprise DGX.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Contexte

Google DeepMind a publié plusieurs variantes de Gemma au cours de l’année écoulée, chacune élargissant la famille de modèles à poids ouverts pour différents cas d’usage. DiffusionGemma marque la première application par DeepMind d’une architecture de diffusion à la génération de texte dans la gamme Gemma.

Les précédents modèles de texte à diffusion d’autres laboratoires ont montré des avantages de vitesse dans les environnements de recherche, mais avec un déploiement réel limité. La sortie de DeepMind apporte cette approche à une famille de modèles largement utilisée, déjà dotée d’outils pour développeurs.

Ce lancement intervient peu après la sortie par Anthropic de Claude Fable 5 plus tôt dans la semaine, qui a établi de nouveaux benchmarks sur les tâches de raisonnement et de programmation. L’accent mis par DeepMind sur la vitesse d’inférence brute au niveau matériel cible une dimension concurrentielle différente, en privilégiant le débit pour des déploiements à fort volume plutôt que les scores de benchmark.

Nvidia en bénéficie directement. L’optimisation pour DGX et RTX consolide le matériel Nvidia comme plateforme par défaut pour l’inférence de modèles de pointe au niveau local.

Ce qu’il faudra observer, c’est la vitesse d’adoption par les développeurs et si les chiffres de débit de DiffusionGemma se confirment sur des configurations matérielles non Nvidia.