新闻学习研究排名生态系统

平台现已上线

yellow bottom left star road

谷歌全新 AI 模型在 Nvidia GPU 上每秒可处理 1,000 个 token

Murtuza MerchantJun, 10 2026 22:29

#谷歌 #AI #Nvidia #克劳德 #Claude Fable #Anthropic

谷歌全新 AI 模型在 Nvidia GPU 上每秒可处理 1,000 个 token

Google DeepMind 于 2026 年 6 月 10 日发布了 DiffusionGemma，这是一种新的文本生成模型，它是通过并行块而非顺序方式来生成文本。

公司称，该模型在 Nvidia GPU 硬件上每秒可达到最多 1,000 个 token 的生成速度。

据报道，DeepMind 的基准测试显示，在等量算力下，DiffusionGemma 的运行速度比此前的 Gemma 自回归模型快 4 倍。另一份基准报告也证实，在 Nvidia 硬件上进行的长上下文推理测试中，其 token 吞吐量提高了 10 倍。

DiffusionGemma 的工作原理

标准的大型语言模型是一次生成一个 token。DiffusionGemma 则使用基于扩散的架构，同时生成整块文本。该方法在生成长输出时能大幅降低延迟。 DeepMind 表示，该模型在生成过程中可以自我纠正复杂的 markdown 和结构化格式。

这一能力主要面向正在构建代码助手、文档工具以及结构化数据流水线的开发者。该模型针对 Nvidia RTX 消费级 GPU 和 DGX 企业系统做了本地部署优化。

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

背景

过去一年里，Google DeepMind 已发布多个 Gemma 变体，不断扩展这一开源权重模型家族以适配不同使用场景。DiffusionGemma 标志着 DeepMind 首次在 Gemma 系列中将扩散架构应用于文本生成。

其他实验室此前的扩散文本模型在研究环境中已展现出速度优势，但在真实世界部署中相对有限。DeepMind 的此次发布，则将这一方法引入一个被广泛使用且已有成熟开发工具链的模型家族中。

此次发布时间紧随 Anthropic 于本周早些时候发布 Claude Fable 5 之后，后者在推理和编程任务上刷新了新基准。DeepMind 则选择在硬件层面聚焦原始推理速度，从另一竞争维度入手，更侧重高吞吐量的大规模部署，而非基准分数本身。

Nvidia 也将从中直接受益。针对 DGX 和 RTX 的优化进一步巩固了 Nvidia 硬件，成为本地前沿模型推理的默认平台。

接下来值得关注的是开发者的采纳速度，以及 DiffusionGemma 的吞吐表现能否在非 Nvidia 硬件配置上同样保持。

Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear

免责声明和风险警告：本文提供的信息仅用于教育和信息目的，基于作者的意见。它不构成财务、投资、法律或税务建议。加密货币资产具有高度波动性并面临高风险，包括失去全部或大部分投资的风险。交易或持有加密资产可能不适合所有投资者。本文表达的观点仅为作者的观点，不代表Yellow、其创始人或高管的官方政策或立场。在做出任何投资决定之前，请务必进行自己的全面研究（D.Y.O.R.）并咨询持牌金融专业人士。

相关新闻

英伟达发布 Nemotron 3 Ultra：其最强开源权重 AI 模型，但中国仍然领先

英伟达推出最强开源权重模型 Nemotron 3 Ultra，大幅领先美国同类模型，但在基准测试上仍落后中国实验室的前沿系统。

谷歌在 I/O 2026 抛出 3 枚代理式 AI 重磅炸弹，Spark 成全场焦点

皮查伊在 I/O 2026 宣布“代理式 Gemini 时代”，发布 24/7 个人代理 Spark、默认模型 Gemini 3.5 Flash 及多模态世界模型 Gemini Omni。

两大 AI 竞争对手，共摊算力账单：谷歌 300 亿美元携手 SpaceX 的内幕

谷歌同意至 2029 年每月向 SpaceX 支付 9.2 亿美元购买 AI 算力和 Nvidia 芯片，锁定 Gemini 需求并助 SpaceX 拓展算力业务。

谷歌推出 Titans：首个可实时更新自身记忆的 AI 系统

谷歌发布 Titans 与 MIRAS，实现 AI 实时更新长期记忆，在极长上下文任务中超过 GPT-4，为新一代具持续学习能力的系统奠定基础。

Render Network：真正的 AI 瓶颈不是 GPU 短缺，而是被浪费的算力

文章认为 AI 真正瓶颈并非 GPU 短缺，而是算力大量闲置与分配低效。未来将依靠去中心化算力、轻量模型和 3D 原生内容。

相关研究文章

AI 计算需求已超越供给，加密网络正填补缺口

io.net 暴涨凸显去中心化 GPU 计算需求。AI 算力短缺推动 DePIN 网络崛起，或以更低成本补足云巨头难以及时满足的市场缺口。

AI 代币会成为继模因币之后的下一轮加密大趋势吗？

AI 代币快速追赶模因币，但智能体代币暴跌 85%。基础设施需求与机构布局支撑估值，监管与投机风险并存。

Bittensor、Fetch.ai 与 Render Token 解析：AI 加密实用代币深度剖析

深入解析 Bittensor、Fetch.ai 与 Render：其网络机制、代币经济与估值逻辑，以及 AI 实用代币如何在新一轮加密周期中崛起。

Bittensor 打造了一个 27 亿美元的去中心化 AI 市场，几乎无人预料

Bittensor 的 TAO 网络以去中心化激励机制，将 AI 模型变成任何人都可参与的市场商品，子网扩展至 64 个，形成多样化智能市场。

AI 赛道复苏：Bittensor 大涨 117% 能否带动板块回归？

Bittensor 带动 AI 代币单日暴涨，但整个板块在 2025 年大跌后仍低于高点一半，AI 叙事能否转为长期投资逻辑仍存疑。

相关学习文章

去中心化 AI 能保护你的提示隐私吗？

隐私 AI 网络通过去中心化节点执行推理，避免单一方看到完整提示与回复，并用密码学与硬件安全保障私密性与可验证性。

为什么没有自有区块链层的 AI 代理无法实现规模化

AI 代理正实际管理资金并跨链操作，但传统为人类设计的钱包在密钥托管、Gas 机制和账户模型上都不适配机器。新一代链上基础设施正围绕代理账户、免Gas执行和意图路由重构。

AI 代理现在急需廉价算力，去中心化云正好能提供

通过反向拍卖把全球闲置算力变成开放市场，Akash 以远低于传统云的价格提供 AI 推理、DeFi 节点等算力，并用 AKT 连接算力需求与代币价值。

Bittensor 运行着一家市值 26 亿美元、无人控制的 AI 市场

介绍去中心化 AI 市场 Bittensor：模型在子网中竞争获取 TAO，矿工与验证者分工协作，用户可通过质押与委托参与。

什么是 Bittensor？TAO 如何把 AI 模型变成去中心化市场

介绍 Bittensor 如何让 AI 模型通过竞争生成有价值输出来赚取 TAO，并说明子网、验证者和 TAO 代币在系统中的作用。

谷歌全新 AI 模型在 Nvidia GPU 上每秒可处理 1,000 个 token | Yellow