新聞學習研究排名生態系統

平台現已上線

yellow bottom left star road

Google 全新 AI 模型在 Nvidia GPU 上每秒可處理 1,000 個 token

Murtuza MerchantJun, 10 2026 22:29

#Google #人工智能 #英偉達 #Claude #Claude 寓言 #Anthropic

Google 全新 AI 模型在 Nvidia GPU 上每秒可處理 1,000 個 token

Google DeepMind 於 2026 年 6 月 10 日發佈 DiffusionGemma，這是一款全新的文字生成模型，能夠以平行區塊而非逐字元方式產生文字。

該公司表示，在 Nvidia GPU 硬件上，模型最高可達每秒 1,000 個 token。

報告指出，DeepMind 的基準測試顯示，在相同算力下，DiffusionGemma 的運行速度比先前的 Gemma 自回歸模型快 4 倍。一份獨立基準測試報告亦證實，在 Nvidia 硬件上進行的長上下文推理測試中，其 token 吞吐量提高 10 倍。

DiffusionGemma 的運作方式

一般大型語言模型一次只會生成一個 token。DiffusionGemma 則使用擴散式架構，同時生成整個文字區塊。這種做法可大幅降低長篇輸出時的延遲。

DeepMind 指出，模型在生成過程中能自動修正複雜的 markdown 與結構化格式。

這項能力主要面向開發者，用於打造程式碼助理、文件工具以及結構化數據處理流程。模型已針對 Nvidia RTX 消費級 GPU 及 DGX 企業系統作本地部署優化。

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

背景

過去一年間，Google DeepMind 已推出多款 Gemma 變體，逐步擴充這個開源權重模型家族，以支援不同使用情境。DiffusionGemma 則是 DeepMind 首次在 Gemma 系列中，把擴散式架構應用到文字生成。

其他研究機構先前的擴散式文字模型，在研究環境中已展現速度優勢，但在真實世界部署上仍有限。DeepMind 這次的發佈，將此方法帶入一個已被廣泛採用、並具備現成開發工具的模型家族。

此舉緊接著 Anthropic 於本週稍早發佈 Claude Fable 5，後者在推理與程式設計任務上刷新多項基準。DeepMind 則選擇聚焦在硬件層面的純推理速度，瞄準不同的競爭維度，優先追求大規模部署下的吞吐量，而非單一基準分數。

Nvidia 將直接受惠。針對 DGX 與 RTX 的優化，進一步鞏固 Nvidia 硬件作為本地端前沿模型推理的預設平台。

值得關注的是開發者採用速度，以及 DiffusionGemma 的吞吐表現能否在非 Nvidia 硬件配置上同樣維持。

Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear

免責聲明及風險提示：本文資訊僅供教育與參考之用，並基於作者意見，並不構成金融、投資、法律或稅務建議。加密貨幣資產具高度波動性並伴隨高風險，可能導致投資大幅虧損或全部損失，並非適合所有投資者。文章內容僅代表作者觀點，不代表 Yellow、創辦人或管理層立場。投資前請務必自行徹底研究（D.Y.O.R.），並諮詢持牌金融專業人士。

相關新聞

Gemini 3.5 Flash 分數僅落後 Claude Opus 4.7 兩點價格卻只需三分之一

Google 推出 Gemini 3.5 Flash，以約三分之一成本逼近 Claude Opus 4.7 和 GPT-5.5，壓低高階模型價格，同時縮小效能差距。

兩大 AI 勁敵，共用一張算力帳單：拆解 Google 300 億美元 SpaceX 交易內幕

Google 將在 2026 至 2029 年期間，每月向 SpaceX 支付 9.2 億美元，換取 11 萬枚 Nvidia GPU 等硬件，以應付 Gemini 等 AI 服務激增需求。

Google 於 I/O 2026 投下 3 枚 Agentic AI 重磅炸彈，Spark 成全場焦點

Sundar Pichai 在 I/O 2026 宣佈進入「Agentic Gemini 時代」，推出 24/7 個人 AI 代理、Gemini 3.5 Flash 和多模態世界模型 Spark。

Render Network指真正的AI樽頸唔係GPU短缺，而係運算資源被浪費

Render Network稱大量GPU閒置，AI發展樽頸係運算資源分配唔善，新潮AI會混合分散式運算及3D原生內容。

Google 推出 Titans，首個能即時更新自身記憶嘅 AI 系統

Google 推出 Titans，令 AI 可即時更新記憶及持續學習，提升長文本處理效能，並有望影響未來 AI 技術發展。

相關研究文章

AI 代幣會成為迷因幣之後的下一個加密大潮嗎？

AI 代幣從迷因幣市值的十分之一，在 15 個月內追近持平；但包括代理人代幣在內多數項目仍較歷史高位下跌 55–94%。

AI 算力需求遠超供應，加密網絡正介入填補缺口

去中心化 GPU 網絡乘 AI 算力短缺東風冒起，io.net 暴漲反映機構與開發者實際需求，DePIN 料在逾 7,000 億美元市場中分一杯羹。

AI 概念幣復甦：Bittensor 飆升 117% 能否帶動板塊回歸？

Bittensor 帶動 AI 概念幣強勁反彈，單日板塊漲 42%，但距離 2024 年高位仍腰斬；在宏觀壓力與競爭下，板塊復甦仍存變數。

Bittensor 打造了市值 27 億美元、沒人預料到的去中心化 AI 市場

Bittensor 透過獎勵機制把 AI 智能商品化，64 條子網涵蓋多種任務，TAO 採類似比特幣的減產排程，成為流動性極高的 AI 主題加密資產。

加密貨幣中的 AI 代理人—深入探討

2025 年初，AI 代理人成為加密界焦點，市值爆增。自主代理不僅能管理資產，還帶動大量資金與創新參與。

相關學習文章

去中心化 AI 能否真正保護你的提示隱私？

隱私導向的 AI 網絡，讓用戶在不被單一公司看見提示與回應的情況下運行模型。Venice 透過去中心化節點、TEE 與代幣機制強化私隱。

為何 AI 代理若沒有專屬區塊鏈層就無法擴展

AI 代理無法用傳統錢包，因為缺乏持久身份、助記詞託管與機器速度下的手續費處理能力。多個區塊鏈正打造專用代理基建。

AI 智能代理急需廉價算力，去中心化雲端正好補位

三大雲端巨頭壟斷算力市場，Akash 透過去中心化算力市集，把全球閒置硬件變成可出租資源，以反向拍賣大幅壓低成本，特別適合 AI 推理與 DeFi 節點等對成本敏感的應用

什麼是 Bittensor？TAO 如何把 AI 模型變成去中心化市場

介紹 Bittensor 如何用 TAO 代幣獎勵 AI 模型、子網與驗證者機制，並探討其去中心化 AI 市場的潛力與風險，篇幅精簡扼要。

Bittensor 運行一個市值 26 億美元、無公司控制的 AI 市場

Bittensor 是去中心化 AI 協議，透過 TAO 代幣獎勵模型貢獻者，利用子網與驗證人機制，打造無中心公司的開放 AI 市場。

Google 全新 AI 模型在 Nvidia GPU 上每秒可處理 1,000 個 token | Yellow