Google 全新 AI 模型在 Nvidia GPU 上每秒可輸出 1,000 個 Token

Google 全新 AI 模型在 Nvidia GPU 上每秒可輸出 1,000 個 Token

Google DeepMind 於 2026 年 6 月 10 日發佈 DiffusionGemma,這是一款全新的文字生成模型,採用平行區塊生成,而非逐字(逐 token)序列生成。

公司表示,在 Nvidia GPU 硬件上,其輸出速度最高可達每秒 1,000 個 token。

根據報告,DeepMind 的基準測試顯示,在相同運算資源下,DiffusionGemma 的速度比先前的 Gemma 自回歸模型快 4 倍。另一份基準測試報告則在長上下文推理測試中證實,在 Nvidia 硬件上其 token 吞吐量可高出 10 倍。

DiffusionGemma 的運作方式

傳統大型語言模型一次只生成一個 token。DiffusionGemma 則採用擴散式(diffusion-based)架構,可一次平行生成整個文字區塊。這種方法大幅降低長輸出內容的延遲。

DeepMind 表示,該模型在生成過程中能自我修正複雜的 markdown 及結構化格式。

這項能力主要針對開發者,用於打造程式碼助理、文件工具以及結構化數據處理管線。模型已針對在 Nvidia RTX 消費級 GPU 與 DGX 企業級系統上的本地部署進行優化。

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

背景

過去一年間,Google DeepMind 已推出多個 Gemma 變體,持續擴充這個開放權重模型家族,以涵蓋不同使用場景。DiffusionGemma 是 DeepMind 首次在 Gemma 系列中,將擴散式架構應用到文字生成。

其他研究機構早前的擴散式文字模型,在研究環境中已展現速度優勢,但在真實世界部署上仍有限。DeepMind 此次的發佈,將這種方法帶到一個已被廣泛採用、且具備既有開發工具的模型家族之中。

此時機正好緊接 Anthropic 於本週稍早發佈 Claude Fable 5,後者在推理與寫程式任務上創下新基準。DeepMind 則選擇聚焦在硬件層面的純推理速度,鎖定的是另一個競爭面向:優先追求高吞吐量與大規模部署效益,而非單純的基準分數。

Nvidia 也因此直接受惠。對 DGX 與 RTX 的優化,使 Nvidia 硬件在本地層面幾乎成為前沿模型推理的預設平台。

未來值得關注的,是開發者採用的速度,以及 DiffusionGemma 的吞吐表現能否在非 Nvidia 硬件組合上維持同樣水準。

Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear

免責聲明及風險提示: 本文資訊僅供教育與參考之用,並基於作者意見,並不構成金融、投資、法律或稅務建議。 加密貨幣資產具高度波動性並伴隨高風險,可能導致投資大幅虧損或全部損失,並非適合所有投資者。 文章內容僅代表作者觀點,不代表 Yellow、創辦人或管理層立場。 投資前請務必自行徹底研究(D.Y.O.R.),並諮詢持牌金融專業人士。
Google 全新 AI 模型在 Nvidia GPU 上每秒可輸出 1,000 個 Token | Yellow.com