Новый ИИ‑модель Google достигает 1 000 токенов в секунду на GPU Nvidia

Google DeepMind выпустила DiffusionGemma 10 июня 2026 года — новую модель генерации текста, которая создаёт текст параллельными блоками, а не последовательно.

По заявлению компании, она достигает до 1 000 токенов в секунду на аппаратном обеспечении GPU Nvidia.

Согласно отчёту, бенчмарки DeepMind показывают, что DiffusionGemma работает в 4 раза быстрее, чем предыдущие авто-регрессионные модели Gemma при сопоставимых вычислительных ресурсах. Отдельный отчёт о тестах подтвердил 10-кратное увеличение пропускной способности по токенам в тестах инференса с длинным контекстом, проведённых на оборудовании Nvidia.

Как работает DiffusionGemma

Стандартные крупные языковые модели генерируют по одному токену за раз. DiffusionGemma генерирует целые блоки текста одновременно, используя диффузионную архитектуру. Такой подход резко снижает задержку при длинных ответах. DeepMind утверждает, что модель самостоятельно исправляет сложный markdown и структурированные форматы в процессе генерации.

Эта возможность ориентирована на разработчиков, создающих код-ассистентов, инструменты документации и конвейеры обработки структурированных данных. Модель оптимизирована для локального развёртывания на потребительских GPU Nvidia RTX и корпоративных системах DGX.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Предпосылки

Google DeepMind за последний год выпустила несколько вариантов Gemma, каждый из которых расширяет семейство моделей с открытыми весами под разные задачи. DiffusionGemma знаменует первый случай, когда DeepMind применила диффузионную архитектуру к генерации текста в линейке Gemma.

Предыдущие диффузионные текстовые модели из других лабораторий демонстрировали преимущества по скорости в исследовательских условиях, но имели ограниченное практическое применение. Релиз DeepMind переносит этот подход в широко используемое семейство моделей с уже существующими инструментами для разработчиков.

Выход модели произошёл вслед за релизом Claude Fable 5 от Anthropic на этой неделе, который установил новые рекорды в задачах рассуждения и программирования. Фокус DeepMind на чистой скорости инференса на уровне «железа» выводит конкуренцию в другую плоскость, отдавая приоритет пропускной способности для крупномасштабного развёртывания, а не абстрактным бенчмаркам.

Nvidia получает прямую выгоду. Оптимизация под DGX и RTX закрепляет оборудование Nvidia как платформу «по умолчанию» для инференса передовых моделей на локальном уровне.

Важно наблюдать за скоростью принятия модели разработчиками и тем, сохраняются ли показатели пропускной способности DiffusionGemma на конфигурациях, не основанных на оборудовании Nvidia.