Google'ın Yeni Yapay Zekâ Modeli Nvidia GPU'larda Saniyede 1.000 Token'a Ulaşıyor

Google DeepMind, 10 Haziran 2026'da, metni sıralı yerine paralel bloklar hâlinde üreten yeni bir metin üretim modeli olan DiffusionGemma'yı yayınladı.

Şirket, modelin Nvidia GPU donanımı üzerinde saniyede 1.000 token'a kadar ulaştığını söylüyor.

Bir rapora göre DeepMind'in kıyaslamaları, DiffusionGemma'nın eşdeğer hesaplama gücünde önceki Gemma otoregresif modellerinden 4 kat daha hızlı çalıştığını gösteriyor. Ayrı bir kıyaslama raporu, Nvidia donanımı üzerinde yürütülen uzun bağlamlı çıkarım testlerinde 10 kat daha yüksek token aktarım hızı doğruladı.

DiffusionGemma Nasıl Çalışıyor

Standart büyük dil modelleri metni her seferinde bir token üreterek üretir. DiffusionGemma ise difüzyon tabanlı bir mimari kullanarak tüm metin bloklarını aynı anda üretir. Bu yaklaşım, özellikle uzun çıktılar için gecikmeyi keskin biçimde azaltır. DeepMind, modelin oluşturma sırasında karmaşık markdown ve yapılandırılmış formatları kendi kendine düzelttiğini belirtiyor.

Bu yetenek, kod asistanları, dokümantasyon araçları ve yapılandırılmış veri hatları geliştiren geliştiricileri hedefliyor. Model, Nvidia RTX tüketici GPU'ları ve DGX kurumsal sistemlerinde yerel dağıtım için optimize edilmiştir.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Arka Plan

Google DeepMind, son bir yıl içinde farklı kullanım senaryoları için açık ağırlıklı model ailesini genişleten çeşitli Gemma varyantları yayınladı. DiffusionGemma, DeepMind'in Gemma serisi içinde metin üretimine ilk kez bir difüzyon mimarisi uygulamasını temsil ediyor.

Diğer laboratuvarlardan gelen önceki difüzyon tabanlı metin modelleri, araştırma ortamlarında hız avantajı gösterse de gerçek dünya dağıtımlarında sınırlı kaldı. DeepMind'in bu yayını, yaklaşımı hâlihazırda geliştirici araç ekosistemine sahip yaygın bir model ailesine taşıyor.

Zamanlama, bu hafta başında akıl yürütme ve kodlama görevlerinde yeni kıyaslar belirleyen Anthropic'in Claude Fable 5 sürümünün hemen ardından geliyor. DeepMind'in donanım düzeyinde ham çıkarım hızına odaklanması, kıyas puanları yerine yüksek hacimli dağıtım için aktarım hızını önceliklendiren farklı bir rekabet boyutunu hedefliyor.

Nvidia doğrudan fayda sağlıyor. DGX ve RTX optimizasyonu, yerel düzeyde ileri seviye model çıkarımı için Nvidia donanımını varsayılan platform olarak pekiştiriyor.

İzlenmesi gereken, geliştirici benimseme hızı ve DiffusionGemma'nın aktarım rakamlarının Nvidia dışı donanım yapılandırmalarında da geçerli olup olmayacağı.