Google 全新 AI 模型在 Nvidia GPU 上每秒可生成 1,000 個權杖

Google 全新 AI 模型在 Nvidia GPU 上每秒可生成 1,000 個權杖

Google DeepMind 於 2026 年 6 月 10 日發布 DiffusionGemma,這是一款新的文字生成模型,採用平行區塊生成文字,而非傳統的逐字生成。

公司表示,該模型在 Nvidia GPU 硬體上每秒可達到最多 1,000 個權杖的生成速度。

根據報告,DeepMind 的基準測試顯示,在相同運算資源下,DiffusionGemma 的運行速度比先前的 Gemma 自迴歸模型快 4 倍。另一份基準測試報告則確認,在 Nvidia 硬體上進行的長上下文推論測試中,其權杖吞吐量提高了 10 倍。

DiffusionGemma 的運作方式

標準大型語言模型一次只生成一個權杖。DiffusionGemma 則使用擴散式架構,同時生成整個文字區塊。這種做法大幅降低長篇輸出的延遲。

DeepMind 表示,該模型在生成過程中能自動修正複雜的 markdown 與結構化格式。

這項能力主要鎖定協助開發者打造程式碼助理、文件工具與結構化資料管線。模型針對在 Nvidia RTX 消費級 GPU 與 DGX 企業級系統上的本地部署進行了優化。

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

背景

過去一年中,Google DeepMind 已推出多個 Gemma 變體,持續擴展這個開放權重模型家族,以支援不同使用情境。DiffusionGemma 則是 DeepMind 首次在 Gemma 系列中,將擴散式架構應用到文字生成。

其他研究機構先前推出的擴散式文字模型,在研究環境中已展現速度優勢,但在真實世界部署上仍相對有限。DeepMind 這次的發表,將此方法帶入一個已被廣泛採用、並具備既有開發工具鏈的模型家族中。

此發布時間緊接在 Anthropic 本週稍早推出 Claude Fable 5 之後,後者在推理與程式設計任務上創下新基準。相較之下,DeepMind 著重於硬體層級的推論原始速度,鎖定的是另一種競爭面向:優先提升大量部署情境下的吞吐量,而非單純追求基準測試分數。

Nvidia 亦可直接受惠。對 DGX 與 RTX 的優化,進一步鞏固 Nvidia 硬體作為本地前沿模型推論的預設平台地位。

值得關注的是開發者採用速度,以及 DiffusionGemma 的吞吐表現能否在非 Nvidia 硬體配置上同樣維持。

Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear

免責聲明與風險警告: 本文提供的資訊僅供教育與參考用途,並基於作者觀點,不構成財務、投資、法律或稅務建議。 加密貨幣資產具有高度波動性並伴隨高風險,包括可能損失全部或大部分投資金額。買賣或持有加密資產可能並不適合所有投資者。 本文中所表達的觀點僅代表作者立場,不代表 Yellow、其創辦人或管理層的官方政策或意見。 請務必自行進行充分研究(D.Y.O.R.),並在做出任何投資決策前諮詢持牌金融專業人士。
Google 全新 AI 模型在 Nvidia GPU 上每秒可生成 1,000 個權杖 | Yellow.com