谷歌全新 AI 模型在 Nvidia GPU 上每秒可处理 1,000 个 token

谷歌全新 AI 模型在 Nvidia GPU 上每秒可处理 1,000 个 token

Google DeepMind 于 2026 年 6 月 10 日发布了 DiffusionGemma,这是一种新的文本生成模型,它是通过并行块而非顺序方式来生成文本。

公司称,该模型在 Nvidia GPU 硬件上每秒可达到最多 1,000 个 token 的生成速度。

据报道,DeepMind 的基准测试显示,在等量算力下,DiffusionGemma 的运行速度比此前的 Gemma 自回归模型快 4 倍。另一份基准报告也证实,在 Nvidia 硬件上进行的长上下文推理测试中,其 token 吞吐量提高了 10 倍。

DiffusionGemma 的工作原理

标准的大型语言模型是一次生成一个 token。DiffusionGemma 则使用基于扩散的架构,同时生成整块文本。该方法在生成长输出时能大幅降低延迟。 DeepMind 表示,该模型在生成过程中可以自我纠正复杂的 markdown 和结构化格式。

这一能力主要面向正在构建代码助手、文档工具以及结构化数据流水线的开发者。该模型针对 Nvidia RTX 消费级 GPU 和 DGX 企业系统做了本地部署优化。

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

背景

过去一年里,Google DeepMind 已发布多个 Gemma 变体,不断扩展这一开源权重模型家族以适配不同使用场景。DiffusionGemma 标志着 DeepMind 首次在 Gemma 系列中将扩散架构应用于文本生成。

其他实验室此前的扩散文本模型在研究环境中已展现出速度优势,但在真实世界部署中相对有限。DeepMind 的此次发布,则将这一方法引入一个被广泛使用且已有成熟开发工具链的模型家族中。

此次发布时间紧随 Anthropic 于本周早些时候发布 Claude Fable 5 之后,后者在推理和编程任务上刷新了新基准。DeepMind 则选择在硬件层面聚焦原始推理速度,从另一竞争维度入手,更侧重高吞吐量的大规模部署,而非基准分数本身。

Nvidia 也将从中直接受益。针对 DGX 和 RTX 的优化进一步巩固了 Nvidia 硬件,成为本地前沿模型推理的默认平台。

接下来值得关注的是开发者的采纳速度,以及 DiffusionGemma 的吞吐表现能否在非 Nvidia 硬件配置上同样保持。

Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear

免责声明和风险警告: 本文提供的信息仅用于教育和信息目的,基于作者的意见。它不构成财务、投资、法律或税务建议。 加密货币资产具有高度波动性并面临高风险,包括失去全部或大部分投资的风险。交易或持有加密资产可能不适合所有投资者。 本文表达的观点仅为作者的观点,不代表Yellow、其创始人或高管的官方政策或立场。 在做出任何投资决定之前,请务必进行自己的全面研究(D.Y.O.R.)并咨询持牌金融专业人士。