Google DeepMind випустила DiffusionGemma 10 червня 2026 року — нову модель генерації тексту, яка створює текст паралельними блоками, а не послідовно.
Компанія заявляє, що модель досягає швидкості до 1 000 токенів за секунду на апаратному забезпеченні GPU Nvidia.
Згідно зі звітом, бенчмарки DeepMind показують, що DiffusionGemma працює у 4 рази швидше за попередні авторегресивні моделі Gemma на еквівалентних обчислювальних ресурсах. Окремий бенчмарк-звіт підтвердив у 10 разів вищу пропускну здатність за токенами в тестах довгоконтекстного виведення, проведених на апаратному забезпеченні Nvidia.
Як працює DiffusionGemma
Стандартні великі мовні моделі генерують по одному токену за раз. DiffusionGemma генерує цілі блоки тексту одночасно, використовуючи дифузійну архітектуру. Такий підхід різко зменшує затримку для довгих відповідей. DeepMind зазначає, що модель самокоригує складний markdown і структуровані формати під час генерації.
Ці можливості орієнтовані на розробників, які створюють кодові асистенти, інструменти для документації та конвеєри структурованих даних. Модель оптимізована для локального розгортання на споживчих GPU Nvidia RTX і системах корпоративного рівня DGX.
Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay
Передумови
Google DeepMind протягом минулого року випустила кілька варіантів Gemma, кожен з яких розширював сімейство моделей з відкритими вагами для різних сценаріїв використання. DiffusionGemma ознаменувала перший випадок, коли DeepMind застосувала дифузійну архітектуру до генерації тексту в лінійці Gemma.
Попередні дифузійні текстові моделі з інших лабораторій демонстрували переваги у швидкості в дослідницьких умовах, але мали обмежене реальне розгортання. Випуск DeepMind переносить цей підхід до широко використовуваного сімейства моделей з наявними інструментами для розробників.
Час релізу збігся з виходом Claude Fable 5 від Anthropic на початку цього тижня, який встановив нові бенчмарки в задачах міркування та програмування. Орієнтація DeepMind на сиру швидкість виведення на рівні апаратного забезпечення націлена на інший вимір конкуренції, віддаючи пріоритет пропускній здатності для масового розгортання, а не бенчмарк‑балам.
Nvidia отримує прямі вигоди. Оптимізація під DGX і RTX закріплює апаратне забезпечення Nvidia як платформу за замовчуванням для виведення передових моделей на локальному рівні.
Те, за чим варто спостерігати, — це швидкість адаптації розробниками та те, чи збережуться показники пропускної здатності DiffusionGemma на конфігураціях з не‑Nvidia апаратним забезпеченням.
Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear





