Google DeepMind 於 2026 年 6 月 10 日發布 DiffusionGemma,這是一款新的文字生成模型,採用平行區塊生成文字,而非傳統的逐字生成。
公司表示,該模型在 Nvidia GPU 硬體上每秒可達到最多 1,000 個權杖的生成速度。
根據報告,DeepMind 的基準測試顯示,在相同運算資源下,DiffusionGemma 的運行速度比先前的 Gemma 自迴歸模型快 4 倍。另一份基準測試報告則確認,在 Nvidia 硬體上進行的長上下文推論測試中,其權杖吞吐量提高了 10 倍。
DiffusionGemma 的運作方式
標準大型語言模型一次只生成一個權杖。DiffusionGemma 則使用擴散式架構,同時生成整個文字區塊。這種做法大幅降低長篇輸出的延遲。
DeepMind 表示,該模型在生成過程中能自動修正複雜的 markdown 與結構化格式。
這項能力主要鎖定協助開發者打造程式碼助理、文件工具與結構化資料管線。模型針對在 Nvidia RTX 消費級 GPU 與 DGX 企業級系統上的本地部署進行了優化。
Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay
背景
過去一年中,Google DeepMind 已推出多個 Gemma 變體,持續擴展這個開放權重模型家族,以支援不同使用情境。DiffusionGemma 則是 DeepMind 首次在 Gemma 系列中,將擴散式架構應用到文字生成。
其他研究機構先前推出的擴散式文字模型,在研究環境中已展現速度優勢,但在真實世界部署上仍相對有限。DeepMind 這次的發表,將此方法帶入一個已被廣泛採用、並具備既有開發工具鏈的模型家族中。
此發布時間緊接在 Anthropic 本週稍早推出 Claude Fable 5 之後,後者在推理與程式設計任務上創下新基準。相較之下,DeepMind 著重於硬體層級的推論原始速度,鎖定的是另一種競爭面向:優先提升大量部署情境下的吞吐量,而非單純追求基準測試分數。
Nvidia 亦可直接受惠。對 DGX 與 RTX 的優化,進一步鞏固 Nvidia 硬體作為本地前沿模型推論的預設平台地位。
值得關注的是開發者採用速度,以及 DiffusionGemma 的吞吐表現能否在非 Nvidia 硬體配置上同樣維持。
Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear





