Новый ИИ‑модель Google достигает 1 000 токенов в секунду на GPU Nvidia

Новый ИИ‑модель Google достигает 1 000 токенов в секунду на GPU Nvidia

Google DeepMind выпустила DiffusionGemma 10 июня 2026 года — новую модель генерации текста, которая создаёт текст параллельными блоками, а не последовательно.

По заявлению компании, она достигает до 1 000 токенов в секунду на аппаратном обеспечении GPU Nvidia.

Согласно отчёту, бенчмарки DeepMind показывают, что DiffusionGemma работает в 4 раза быстрее, чем предыдущие авто-регрессионные модели Gemma при сопоставимых вычислительных ресурсах. Отдельный отчёт о тестах подтвердил 10-кратное увеличение пропускной способности по токенам в тестах инференса с длинным контекстом, проведённых на оборудовании Nvidia.

Как работает DiffusionGemma

Стандартные крупные языковые модели генерируют по одному токену за раз. DiffusionGemma генерирует целые блоки текста одновременно, используя диффузионную архитектуру. Такой подход резко снижает задержку при длинных ответах. DeepMind утверждает, что модель самостоятельно исправляет сложный markdown и структурированные форматы в процессе генерации.

Эта возможность ориентирована на разработчиков, создающих код-ассистентов, инструменты документации и конвейеры обработки структурированных данных. Модель оптимизирована для локального развёртывания на потребительских GPU Nvidia RTX и корпоративных системах DGX.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Предпосылки

Google DeepMind за последний год выпустила несколько вариантов Gemma, каждый из которых расширяет семейство моделей с открытыми весами под разные задачи. DiffusionGemma знаменует первый случай, когда DeepMind применила диффузионную архитектуру к генерации текста в линейке Gemma.

Предыдущие диффузионные текстовые модели из других лабораторий демонстрировали преимущества по скорости в исследовательских условиях, но имели ограниченное практическое применение. Релиз DeepMind переносит этот подход в широко используемое семейство моделей с уже существующими инструментами для разработчиков.

Выход модели произошёл вслед за релизом Claude Fable 5 от Anthropic на этой неделе, который установил новые рекорды в задачах рассуждения и программирования. Фокус DeepMind на чистой скорости инференса на уровне «железа» выводит конкуренцию в другую плоскость, отдавая приоритет пропускной способности для крупномасштабного развёртывания, а не абстрактным бенчмаркам.

Nvidia получает прямую выгоду. Оптимизация под DGX и RTX закрепляет оборудование Nvidia как платформу «по умолчанию» для инференса передовых моделей на локальном уровне.

Важно наблюдать за скоростью принятия модели разработчиками и тем, сохраняются ли показатели пропускной способности DiffusionGemma на конфигурациях, не основанных на оборудовании Nvidia.

Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear

Отказ от ответственности и предупреждение о рисках: Информация, представленная в этой статье, предназначена только для образовательных и информационных целей и основана на мнении автора. Она не является финансовой, инвестиционной, юридической или налоговой консультацией. Криптоактивы крайне волатильны и подвержены высоким рискам, включая риск потери всех или значительной части ваших инвестиций. Торговля или владение криптоактивами может не подходить для всех инвесторов. Мнения, выраженные в этой статье, принадлежат исключительно автору(ам) и не представляют официальную политику или позицию Yellow, её основателей или руководителей. Всегда проводите собственное тщательное исследование (D.Y.O.R.) и консультируйтесь с лицензированным финансовым специалистом перед принятием любых инвестиционных решений.
Последние новости
Показать все новости
Связанные Новости
Связанные исследовательские статьи
Связанные обучающие статьи
Новый ИИ‑модель Google достигает 1 000 токенов в секунду на GPU Nvidia | Yellow.com