Google DeepMind 于 2026 年 6 月 10 日发布了 DiffusionGemma,这是一种全新的文本生成模型,它不是按顺序生成,而是以并行块的方式生成文本。
公司表示,该模型在 Nvidia GPU 硬件上每秒可处理多达 1,000 个 token。
据报道,DeepMind 的基准测试显示,在相同算力条件下,DiffusionGemma 的运行速度比此前的 Gemma 自回归模型快 4 倍。另一份基准报告在 Nvidia 硬件上进行的长上下文推理测试中,确认其 token 吞吐量提升达 10 倍。
DiffusionGemma 的工作原理
标准的大型语言模型一次只生成一个 token。DiffusionGemma 采用基于扩散的架构,可一次性并行生成整块文本,从而在长文本输出方面显著降低延迟。 DeepMind 表示,该模型在生成过程中可以自我纠正复杂的 markdown 和结构化格式。
这一能力主要面向正在构建代码助手、文档工具以及结构化数据管道的开发者。模型已针对在 Nvidia RTX 消费级 GPU 和 DGX 企业级系统上的本地部署进行了优化。
Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay
背景
过去一年中,Google DeepMind 已发布多种 Gemma 变体,不断扩展这一开源权重模型家族,以覆盖不同使用场景。DiffusionGemma 标志着 DeepMind 首次在 Gemma 系列中,将扩散架构应用到文本生成任务上。
此前,其他实验室的扩散式文本模型已在研究环境中展现出速度优势,但在真实世界落地方面有限。DeepMind 的此次发布,将这一方法引入到拥有广泛开发者工具支持的主流模型家族中。
此举紧随 Anthropic 本周早些时候发布 Claude Fable 5 之后,后者在推理和编码任务上刷新了多项基准成绩。相比之下,DeepMind 选择在硬件层面押注推理速度,在竞争维度上更强调用于高吞吐量、大规模部署的实际性能,而非基准分数。
Nvidia 由此直接受益。针对 DGX 和 RTX 的优化进一步巩固了 Nvidia 硬件,作为本地前沿模型推理的默认平台地位。
接下来值得关注的,是开发者采纳速度,以及 DiffusionGemma 的吞吐表现能否在非 Nvidia 硬件配置上同样保持。
Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear





