Нову модель ШІ Google розігнали до 1 000 токенів за секунду на графічних процесорах Nvidia

Нову модель ШІ Google розігнали до 1 000 токенів за секунду на графічних процесорах Nvidia

Google DeepMind 10 червня 2026 року представила DiffusionGemma — нову модель генерації тексту, яка створює текст паралельними блоками, а не послідовно.

Компанія стверджує, що модель досягає швидкості до 1 000 токенів за секунду на графічних процесорах Nvidia.

Згідно зі звітом, бенчмарки DeepMind показують, що DiffusionGemma працює у 4 рази швидше за попередні авторегресивні моделі Gemma на еквівалентних обчислювальних ресурсах. Окремий звіт з тестування підтвердив у 10 разів вищу пропускну здатність за токенами в тестах довгоконтекстного інференсу, проведених на обладнанні Nvidia.

Як працює DiffusionGemma

Стандартні великі мовні моделі генерують по одному токену за раз. DiffusionGemma генерує цілі блоки тексту одночасно, використовуючи дифузійну архітектуру. Такий підхід різко зменшує затримку для довгих відповідей. DeepMind зазначає, що модель у процесі генерації самокоригує складний markdown і структуровані формати.

Цю можливість орієнтовано на розробників, які створюють код-асистентів, інструменти для документації та конвеєри обробки структурованих даних. Модель оптимізована для локального розгортання на споживчих GPU Nvidia RTX і системах корпоративного рівня DGX.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Передумови

Google DeepMind за останній рік випустила кілька варіантів Gemma, кожен з яких розширює сімейство моделей з відкритими вагами для різних сценаріїв використання. DiffusionGemma — це перший випадок, коли DeepMind застосувала дифузійну архітектуру до генерації тексту в лінійці Gemma.

Попередні дифузійні текстові моделі з інших лабораторій демонстрували переваги у швидкості в дослідницьких умовах, але мали обмежене реальне розгортання. Реліз DeepMind приносить цей підхід у широко використовуване сімейство моделей з наявними інструментами для розробників.

Час релізу збігся з виходом Anthropic моделі Claude Fable 5 раніше цього тижня, яка встановила нові бенчмарки в задачах міркування та програмування. Орієнтація DeepMind на «сиру» швидкість інференсу на рівні апаратного забезпечення націлена на інший вимір конкуренції, віддаючи пріоритет пропускній здатності для масового розгортання, а не лише бенчмарк-показникам.

Nvidia отримує прямі вигоди. Оптимізація під DGX і RTX закріплює апаратне забезпечення Nvidia як платформу за замовчуванням для інференсу передових моделей на локальному рівні.

Надалі важливо стежити за швидкістю адаптації серед розробників і тим, чи збережуться показники пропускної здатності DiffusionGemma на конфігураціях обладнання без Nvidia.

Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear

Відмова від відповідальності та попередження про ризики: Інформація, надана в цій статті, призначена лише для освітніх та інформаційних цілей і базується на думці автора. Вона не є фінансовою, інвестиційною, правовою чи податковою консультацією. Криптоактиви є надзвичайно волатильними та піддаються високому ризику, включаючи ризик втрати всіх або значної частини ваших інвестицій. Торгівля або утримання криптоактивів може не підходити для всіх інвесторів. Думки, висловлені в цій статті, належать виключно автору(ам) і не представляють офіційну політику чи позицію Yellow, її засновників або керівників. Завжди проводьте власне ретельне дослідження (D.Y.O.R.) та консультуйтесь з ліцензованим фінансовим фахівцем перед прийняттям будь-яких інвестиційних рішень.
Останні новини
Показати всі новини
Схожі новини
Схожі дослідницькі статті
Схожі навчальні матеріали