Le nouveau modèle d’IA de Google atteint 1 000 tokens par seconde sur les GPU Nvidia

Le nouveau modèle d’IA de Google atteint 1 000 tokens par seconde sur les GPU Nvidia

Google DeepMind a publié DiffusionGemma le 10 juin 2026, un nouveau modèle de génération de texte qui produit du texte en blocs parallèles plutôt que séquentiellement.

L’entreprise indique qu’il atteint jusqu’à 1 000 tokens par seconde sur le matériel GPU Nvidia.

Selon un rapport, les benchmarks de DeepMind montrent que DiffusionGemma fonctionne 4 fois plus vite que les précédents modèles autoregressifs Gemma à puissance de calcul équivalente. Un autre rapport de benchmark a confirmé un débit de tokens 10 fois supérieur lors de tests d’inférence en contexte long menés sur du matériel Nvidia.

Comment fonctionne DiffusionGemma

Les grands modèles de langage classiques génèrent un token à la fois. DiffusionGemma génère des blocs de texte entiers simultanément grâce à une architecture basée sur la diffusion. Cette approche réduit fortement la latence pour les sorties longues. DeepMind indique que le modèle s’auto-corrige pour les formats markdown complexes et les formats structurés pendant la génération.

Cette capacité vise les développeurs qui créent des assistants de code, des outils de documentation et des pipelines de données structurées. Le modèle est optimisé pour un déploiement local sur les GPU grand public Nvidia RTX et les systèmes d’entreprise DGX.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Contexte

Google DeepMind a publié plusieurs variantes de Gemma au cours de l’année passée, élargissant à chaque fois la famille de modèles à poids ouverts pour différents cas d’usage. DiffusionGemma marque la première application par DeepMind d’une architecture de diffusion à la génération de texte dans la gamme Gemma.

Les précédents modèles de texte par diffusion d’autres laboratoires ont montré des avantages de vitesse en contexte de recherche, mais avec un déploiement réel limité. La sortie de DeepMind apporte cette approche à une famille de modèles largement utilisée, déjà dotée d’outils pour développeurs.

Ce lancement intervient peu après la sortie par Anthropic de Claude Fable 5 plus tôt cette semaine, qui a établi de nouveaux benchmarks sur les tâches de raisonnement et de programmation. L’accent mis par DeepMind sur la vitesse d’inférence brute au niveau matériel vise une autre dimension concurrentielle, en privilégiant le débit pour les déploiements à grand volume plutôt que les scores de benchmark.

Nvidia en bénéficie directement. L’optimisation pour DGX et RTX renforce le matériel Nvidia comme plateforme par défaut pour l’inférence des modèles de pointe au niveau local.

Ce qu’il faudra observer, c’est la rapidité d’adoption par les développeurs et la question de savoir si les chiffres de débit de DiffusionGemma se maintiennent sur des configurations matérielles non Nvidia.

Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear

Avertissement et avertissement sur les risques : Les informations fournies dans cet article sont à des fins éducatives et informatives uniquement et sont basées sur l'opinion de l'auteur. Elles ne constituent pas des conseils financiers, d'investissement, juridiques ou fiscaux. Les actifs de cryptomonnaie sont très volatils et sujets à des risques élevés, y compris le risque de perdre tout ou une partie substantielle de votre investissement. Le trading ou la détention d'actifs crypto peut ne pas convenir à tous les investisseurs. Les opinions exprimées dans cet article sont uniquement celles de l'auteur/des auteurs et ne représentent pas la politique officielle ou la position de Yellow, de ses fondateurs ou de ses dirigeants. Effectuez toujours vos propres recherches approfondies (D.Y.O.R.) et consultez un professionnel financier agréé avant de prendre toute décision d'investissement.
Dernières nouvelles
Voir toutes les nouvelles
Le nouveau modèle d’IA de Google atteint 1 000 tokens par seconde sur les GPU Nvidia | Yellow.com