Google 全新 AI 模型在 Nvidia GPU 上每秒可處理 1,000 個 token

Google 全新 AI 模型在 Nvidia GPU 上每秒可處理 1,000 個 token

Google DeepMind 於 2026 年 6 月 10 日發佈 DiffusionGemma,這是一款全新的文字生成模型,能夠以平行區塊而非逐字元方式產生文字。

該公司表示,在 Nvidia GPU 硬件上,模型最高可達每秒 1,000 個 token。

報告指出,DeepMind 的基準測試顯示,在相同算力下,DiffusionGemma 的運行速度比先前的 Gemma 自回歸模型快 4 倍。一份獨立基準測試報告亦證實,在 Nvidia 硬件上進行的長上下文推理測試中,其 token 吞吐量提高 10 倍。

DiffusionGemma 的運作方式

一般大型語言模型一次只會生成一個 token。DiffusionGemma 則使用擴散式架構,同時生成整個文字區塊。這種做法可大幅降低長篇輸出時的延遲。

DeepMind 指出,模型在生成過程中能自動修正複雜的 markdown 與結構化格式。

這項能力主要面向開發者,用於打造程式碼助理、文件工具以及結構化數據處理流程。模型已針對 Nvidia RTX 消費級 GPU 及 DGX 企業系統作本地部署優化。

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

背景

過去一年間,Google DeepMind 已推出多款 Gemma 變體,逐步擴充這個開源權重模型家族,以支援不同使用情境。DiffusionGemma 則是 DeepMind 首次在 Gemma 系列中,把擴散式架構應用到文字生成。

其他研究機構先前的擴散式文字模型,在研究環境中已展現速度優勢,但在真實世界部署上仍有限。DeepMind 這次的發佈,將此方法帶入一個已被廣泛採用、並具備現成開發工具的模型家族。

此舉緊接著 Anthropic 於本週稍早發佈 Claude Fable 5,後者在推理與程式設計任務上刷新多項基準。DeepMind 則選擇聚焦在硬件層面的純推理速度,瞄準不同的競爭維度,優先追求大規模部署下的吞吐量,而非單一基準分數。

Nvidia 將直接受惠。針對 DGX 與 RTX 的優化,進一步鞏固 Nvidia 硬件作為本地端前沿模型推理的預設平台。

值得關注的是開發者採用速度,以及 DiffusionGemma 的吞吐表現能否在非 Nvidia 硬件配置上同樣維持。

Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear

免責聲明及風險提示: 本文資訊僅供教育與參考之用,並基於作者意見,並不構成金融、投資、法律或稅務建議。 加密貨幣資產具高度波動性並伴隨高風險,可能導致投資大幅虧損或全部損失,並非適合所有投資者。 文章內容僅代表作者觀點,不代表 Yellow、創辦人或管理層立場。 投資前請務必自行徹底研究(D.Y.O.R.),並諮詢持牌金融專業人士。
Google 全新 AI 模型在 Nvidia GPU 上每秒可處理 1,000 個 token | Yellow.com