Googleの新AIモデル、Nvidia GPUで毎秒1,000トークンを達成

Googleの新AIモデル、Nvidia GPUで毎秒1,000トークンを達成

Google DeepMindは2026年6月10日、テキストを逐次ではなく並列ブロックで生成する新しいテキスト生成モデル「DiffusionGemma」を公開した。

同社によると、このモデルはNvidia製GPUハードウェア上で最大毎秒1,000トークンに達するという。

報告によれば、DeepMindのベンチマークでは、DiffusionGemmaは同等の計算資源で既存のGemma自己回帰モデルより4倍高速に動作した。別のベンチマーク報告では、Nvidiaハードウェア上で実施された長文コンテキスト推論テストにおいて、トークンスループットが10倍に向上したことが確認されている。

DiffusionGemmaの仕組み

標準的な大規模言語モデルは1トークンずつ順番に生成する。一方DiffusionGemmaは、拡散ベースのアーキテクチャを用いて、テキストブロック全体を同時に生成する。この手法により、長い出力におけるレイテンシが大幅に低減される。 DeepMindは、このモデルが生成中に複雑なMarkdownや構造化フォーマットを自動的に修正できると述べている。

この機能は、コードアシスタント、ドキュメント作成ツール、構造化データパイプラインを構築する開発者を主な対象としている。モデルは、Nvidia RTXコンシューマーGPUおよびDGXエンタープライズシステムでのローカル展開向けに最適化されている。

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

背景

Google DeepMindは過去1年にわたり、用途ごとに異なるオープンウェイトモデルファミリーを拡張する複数のGemma派生モデルを公開してきた。DiffusionGemmaは、Gemmaシリーズの中で初めて拡散型アーキテクチャをテキスト生成に適用したモデルとなる。

他研究機関による先行の拡散型テキストモデルは、研究環境では速度面で優位性を示していたものの、実運用での展開は限定的だった。DeepMindの今回のリリースにより、この手法が既存の開発者向けツールチェーンを備えた広く使われているモデルファミリーに導入されることになる。

この発表は、今週前半にAnthropicが推論とコーディングタスクで新たなベンチマークを打ち立てたClaude Fable 5を公開した直後のタイミングだ。DeepMindはハードウェアレベルでの推論速度そのものに焦点を当てており、ベンチマークスコアよりも、大規模デプロイにおけるスループットを優先するという、異なる競争軸を狙っている。

Nvidiaは直接的な恩恵を受ける。DGXおよびRTX向けの最適化により、Nvidiaハードウェアはローカル環境における最先端モデル推論のデフォルトプラットフォームとしての地位を固める。

今後注目されるのは、開発者による採用スピードと、DiffusionGemmaのスループットが非Nvidia構成のハードウェアでも維持されるかどうかだ。

Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear

免責事項とリスク警告: この記事で提供される情報は教育および情報提供のみを目的としており、著者の意見に基づいています。金融、投資、法的、または税務上のアドバイスを構成するものではありません。 暗号資産は非常に変動性が高く、投資の全部または相当な部分を失うリスクを含む高いリスクにさらされています。暗号資産の取引または保有は、すべての投資家に適しているとは限りません。 この記事で表明された見解は著者のものであり、Yellow、その創設者、または役員の公式な方針や立場を表すものではありません。 投資決定を行う前に、常にご自身で十分な調査(D.Y.O.R.)を行い、ライセンスを持つ金融専門家にご相談ください。
関連する学習記事
Googleの新AIモデル、Nvidia GPUで毎秒1,000トークンを達成 | Yellow.com