Googleの新AIモデル、Nvidia GPUで毎秒1,000トークンを達成

Google DeepMindは2026年6月10日、テキストを逐次ではなく並列ブロックで生成する新しいテキスト生成モデル「DiffusionGemma」を公開した。

同社によると、このモデルはNvidia製GPUハードウェア上で最大毎秒1,000トークンに達するという。

報告によれば、DeepMindのベンチマークでは、DiffusionGemmaは同等の計算資源で既存のGemma自己回帰モデルより4倍高速に動作した。別のベンチマーク報告では、Nvidiaハードウェア上で実施された長文コンテキスト推論テストにおいて、トークンスループットが10倍に向上したことが確認されている。

DiffusionGemmaの仕組み

標準的な大規模言語モデルは1トークンずつ順番に生成する。一方DiffusionGemmaは、拡散ベースのアーキテクチャを用いて、テキストブロック全体を同時に生成する。この手法により、長い出力におけるレイテンシが大幅に低減される。 DeepMindは、このモデルが生成中に複雑なMarkdownや構造化フォーマットを自動的に修正できると述べている。

この機能は、コードアシスタント、ドキュメント作成ツール、構造化データパイプラインを構築する開発者を主な対象としている。モデルは、Nvidia RTXコンシューマーGPUおよびDGXエンタープライズシステムでのローカル展開向けに最適化されている。

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

背景

Google DeepMindは過去1年にわたり、用途ごとに異なるオープンウェイトモデルファミリーを拡張する複数のGemma派生モデルを公開してきた。DiffusionGemmaは、Gemmaシリーズの中で初めて拡散型アーキテクチャをテキスト生成に適用したモデルとなる。

他研究機関による先行の拡散型テキストモデルは、研究環境では速度面で優位性を示していたものの、実運用での展開は限定的だった。DeepMindの今回のリリースにより、この手法が既存の開発者向けツールチェーンを備えた広く使われているモデルファミリーに導入されることになる。

この発表は、今週前半にAnthropicが推論とコーディングタスクで新たなベンチマークを打ち立てたClaude Fable 5を公開した直後のタイミングだ。DeepMindはハードウェアレベルでの推論速度そのものに焦点を当てており、ベンチマークスコアよりも、大規模デプロイにおけるスループットを優先するという、異なる競争軸を狙っている。

Nvidiaは直接的な恩恵を受ける。DGXおよびRTX向けの最適化により、Nvidiaハードウェアはローカル環境における最先端モデル推論のデフォルトプラットフォームとしての地位を固める。

今後注目されるのは、開発者による採用スピードと、DiffusionGemmaのスループットが非Nvidia構成のハードウェアでも維持されるかどうかだ。