Google DeepMind 於 2026 年 6 月 10 日發佈 DiffusionGemma,這是一款全新的文字生成模型,能夠以平行區塊而非逐字元方式產生文字。
該公司表示,在 Nvidia GPU 硬件上,模型最高可達每秒 1,000 個 token。
報告指出,DeepMind 的基準測試顯示,在相同算力下,DiffusionGemma 的運行速度比先前的 Gemma 自回歸模型快 4 倍。一份獨立基準測試報告亦證實,在 Nvidia 硬件上進行的長上下文推理測試中,其 token 吞吐量提高 10 倍。
DiffusionGemma 的運作方式
一般大型語言模型一次只會生成一個 token。DiffusionGemma 則使用擴散式架構,同時生成整個文字區塊。這種做法可大幅降低長篇輸出時的延遲。
DeepMind 指出,模型在生成過程中能自動修正複雜的 markdown 與結構化格式。
這項能力主要面向開發者,用於打造程式碼助理、文件工具以及結構化數據處理流程。模型已針對 Nvidia RTX 消費級 GPU 及 DGX 企業系統作本地部署優化。
Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay
背景
過去一年間,Google DeepMind 已推出多款 Gemma 變體,逐步擴充這個開源權重模型家族,以支援不同使用情境。DiffusionGemma 則是 DeepMind 首次在 Gemma 系列中,把擴散式架構應用到文字生成。
其他研究機構先前的擴散式文字模型,在研究環境中已展現速度優勢,但在真實世界部署上仍有限。DeepMind 這次的發佈,將此方法帶入一個已被廣泛採用、並具備現成開發工具的模型家族。
此舉緊接著 Anthropic 於本週稍早發佈 Claude Fable 5,後者在推理與程式設計任務上刷新多項基準。DeepMind 則選擇聚焦在硬件層面的純推理速度,瞄準不同的競爭維度,優先追求大規模部署下的吞吐量,而非單一基準分數。
Nvidia 將直接受惠。針對 DGX 與 RTX 的優化,進一步鞏固 Nvidia 硬件作為本地端前沿模型推理的預設平台。
值得關注的是開發者採用速度,以及 DiffusionGemma 的吞吐表現能否在非 Nvidia 硬件配置上同樣維持。
Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear





