Нову модель ШІ Google розігнали до 1 000 токенів за секунду на графічних процесорах Nvidia

Murtuza MerchantJun, 10 2026 22:29

#Google #штучний інтелект #Nvidia #Клод #Клод Фейбл #Anthropic

Нову модель ШІ Google розігнали до 1 000 токенів за секунду на графічних процесорах Nvidia

Google DeepMind 10 червня 2026 року представила DiffusionGemma — нову модель генерації тексту, яка створює текст паралельними блоками, а не послідовно.

Компанія стверджує, що модель досягає швидкості до 1 000 токенів за секунду на графічних процесорах Nvidia.

Згідно зі звітом, бенчмарки DeepMind показують, що DiffusionGemma працює у 4 рази швидше за попередні авторегресивні моделі Gemma на еквівалентних обчислювальних ресурсах. Окремий звіт з тестування підтвердив у 10 разів вищу пропускну здатність за токенами в тестах довгоконтекстного інференсу, проведених на обладнанні Nvidia.

Як працює DiffusionGemma

Стандартні великі мовні моделі генерують по одному токену за раз. DiffusionGemma генерує цілі блоки тексту одночасно, використовуючи дифузійну архітектуру. Такий підхід різко зменшує затримку для довгих відповідей. DeepMind зазначає, що модель у процесі генерації самокоригує складний markdown і структуровані формати.

Цю можливість орієнтовано на розробників, які створюють код-асистентів, інструменти для документації та конвеєри обробки структурованих даних. Модель оптимізована для локального розгортання на споживчих GPU Nvidia RTX і системах корпоративного рівня DGX.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Передумови

Google DeepMind за останній рік випустила кілька варіантів Gemma, кожен з яких розширює сімейство моделей з відкритими вагами для різних сценаріїв використання. DiffusionGemma — це перший випадок, коли DeepMind застосувала дифузійну архітектуру до генерації тексту в лінійці Gemma.

Попередні дифузійні текстові моделі з інших лабораторій демонстрували переваги у швидкості в дослідницьких умовах, але мали обмежене реальне розгортання. Реліз DeepMind приносить цей підхід у широко використовуване сімейство моделей з наявними інструментами для розробників.

Час релізу збігся з виходом Anthropic моделі Claude Fable 5 раніше цього тижня, яка встановила нові бенчмарки в задачах міркування та програмування. Орієнтація DeepMind на «сиру» швидкість інференсу на рівні апаратного забезпечення націлена на інший вимір конкуренції, віддаючи пріоритет пропускній здатності для масового розгортання, а не лише бенчмарк-показникам.

Nvidia отримує прямі вигоди. Оптимізація під DGX і RTX закріплює апаратне забезпечення Nvidia як платформу за замовчуванням для інференсу передових моделей на локальному рівні.

Надалі важливо стежити за швидкістю адаптації серед розробників і тим, чи збережуться показники пропускної здатності DiffusionGemma на конфігураціях обладнання без Nvidia.

Відмова від відповідальності та попередження про ризики: Інформація, надана в цій статті, призначена лише для освітніх та інформаційних цілей і базується на думці автора. Вона не є фінансовою, інвестиційною, правовою чи податковою консультацією. Криптоактиви є надзвичайно волатильними та піддаються високому ризику, включаючи ризик втрати всіх або значної частини ваших інвестицій. Торгівля або утримання криптоактивів може не підходити для всіх інвесторів. Думки, висловлені в цій статті, належать виключно автору(ам) і не представляють офіційну політику чи позицію Yellow, її засновників або керівників. Завжди проводьте власне ретельне дослідження (D.Y.O.R.) та консультуйтесь з ліцензованим фінансовим фахівцем перед прийняттям будь-яких інвестиційних рішень.

Схожі новини

Google кидає 3 агентивні AI-бомби на I/O 2026, Spark викрадає шоу

Пічаї оголосив «агентивну еру Gemini», представивши агента Spark, модель Gemini 3.5 Flash і мультимодальну модель Gemini Omni.

Google знижує ціну Gemini Ultra на $150, адже AI‑перегони переходять у площину цін

May 21, 2026

Google урізала ціну Gemini Ultra до $100, прибрала денні ліміти й перейшла на облік за обчисленнями, зміщуючи AI‑перегони від “сили” до доступності.

Nvidia випускає Nemotron 3 Ultra — свій найкращий відкритий AI‑модель, але Китай усе ще попереду

Jun 02, 2026

Nvidia представила Nemotron 3 Ultra — найпотужнішу відкриту AI‑модель США, що все ще відстає від китайських лідерів за бенчмарками.

Gemini 3.5 Flash відстає від Claude Opus 4.7 лише на 2 бали й коштує утричі дешевше

Gemini 3.5 Flash від Google набрав 55 балів, майже зрівнявшись з Claude Opus 4.7, при цьому коштує приблизно третину ціни конкурентів за токен.

OpenAI випускає GPT-5.5, що перевершує Opus 4.7 в агентних задачах і на 14 бенчмарках