Google DeepMind 10 червня 2026 року представила DiffusionGemma — нову модель генерації тексту, яка створює текст паралельними блоками, а не послідовно.
Компанія стверджує, що модель досягає швидкості до 1 000 токенів за секунду на графічних процесорах Nvidia.
Згідно зі звітом, бенчмарки DeepMind показують, що DiffusionGemma працює у 4 рази швидше за попередні авторегресивні моделі Gemma на еквівалентних обчислювальних ресурсах. Окремий звіт з тестування підтвердив у 10 разів вищу пропускну здатність за токенами в тестах довгоконтекстного інференсу, проведених на обладнанні Nvidia.
Як працює DiffusionGemma
Стандартні великі мовні моделі генерують по одному токену за раз. DiffusionGemma генерує цілі блоки тексту одночасно, використовуючи дифузійну архітектуру. Такий підхід різко зменшує затримку для довгих відповідей. DeepMind зазначає, що модель у процесі генерації самокоригує складний markdown і структуровані формати.
Цю можливість орієнтовано на розробників, які створюють код-асистентів, інструменти для документації та конвеєри обробки структурованих даних. Модель оптимізована для локального розгортання на споживчих GPU Nvidia RTX і системах корпоративного рівня DGX.
Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay
Передумови
Google DeepMind за останній рік випустила кілька варіантів Gemma, кожен з яких розширює сімейство моделей з відкритими вагами для різних сценаріїв використання. DiffusionGemma — це перший випадок, коли DeepMind застосувала дифузійну архітектуру до генерації тексту в лінійці Gemma.
Попередні дифузійні текстові моделі з інших лабораторій демонстрували переваги у швидкості в дослідницьких умовах, але мали обмежене реальне розгортання. Реліз DeepMind приносить цей підхід у широко використовуване сімейство моделей з наявними інструментами для розробників.
Час релізу збігся з виходом Anthropic моделі Claude Fable 5 раніше цього тижня, яка встановила нові бенчмарки в задачах міркування та програмування. Орієнтація DeepMind на «сиру» швидкість інференсу на рівні апаратного забезпечення націлена на інший вимір конкуренції, віддаючи пріоритет пропускній здатності для масового розгортання, а не лише бенчмарк-показникам.
Nvidia отримує прямі вигоди. Оптимізація під DGX і RTX закріплює апаратне забезпечення Nvidia як платформу за замовчуванням для інференсу передових моделей на локальному рівні.
Надалі важливо стежити за швидкістю адаптації серед розробників і тим, чи збережуться показники пропускної здатності DiffusionGemma на конфігураціях обладнання без Nvidia.
Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear





