Google DeepMind 於 2026 年 6 月 10 日發布 DiffusionGemma, 這是一個新的文字生成模型,透過平行區塊而非序列方式產生文字。
該公司表示,在 Nvidia GPU 硬體上,其效能最高可達每秒 1,000 個 token。
根據報告,DeepMind 的基準測試顯示,在同等運算資源下, DiffusionGemma 的執行速度比先前的 Gemma 自回歸模型快上 4 倍。 另一份基準測試報告則確認,在 Nvidia 硬體上進行長上下文推理測試時, token 吞吐量可提升 10 倍。
DiffusionGemma 的運作原理
一般的大型語言模型一次生成一個 token。 DiffusionGemma 則採用擴散式架構,同步生成整個文字區塊。 這種方法能大幅降低長篇輸出的延遲。
DeepMind 表示,該模型在生成過程中會自動修正複雜的 markdown 以及結構化格式。
這項能力主要針對正在打造程式碼助理、文件工具與結構化資料管線的開發者。 該模型已針對在 Nvidia RTX 消費級 GPU 與 DGX 企業系統上的本地部署進行最佳化。
Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay
背景
過去一年中,Google DeepMind 已釋出多種 Gemma 變體, 持續擴充這個開源權重模型家族,以對應不同使用情境。 DiffusionGemma 則是 DeepMind 首次在 Gemma 系列中, 將擴散式架構應用於文字生成。
先前其他研究機構推出的擴散式文字模型, 雖在研究環境中展現速度優勢,但在實際部署上仍相對有限。 DeepMind 這次的發布,將此種方法帶入一個已廣泛使用、 並具備既有開發工具生態的模型家族。
此時機點恰逢 Anthropic 在本週稍早推出 Claude Fable 5, 在推理與程式設計任務上刷新多項基準表現。 DeepMind 則選擇聚焦於硬體層級的純推理速度, 鎖定高吞吐量與大規模部署,而非單純追求基準分數。
Nvidia 將可直接受惠。 對 DGX 與 RTX 的最佳化,使 Nvidia 硬體更進一步鞏固為 前沿模型在本地推理時的預設平台。
接下來值得關注的是開發者採用的速度, 以及 DiffusionGemma 的吞吐量表現能否在非 Nvidia 硬體組態上維持水準。
Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear





