Google DeepMind merilis DiffusionGemma pada 10 Juni 2026, sebuah model generasi teks baru yang menghasilkan teks dalam blok paralel, bukan secara berurutan.
Perusahaan menyatakan model ini mampu mencapai hingga 1.000 token per detik pada perangkat keras GPU Nvidia.
Menurut sebuah laporan, benchmark DeepMind menunjukkan DiffusionGemma berjalan 4x lebih cepat dibanding model autoregresif Gemma sebelumnya pada komputasi yang setara. Laporan benchmark terpisah mengonfirmasi throughput token 10x lebih tinggi dalam uji inferensi konteks panjang yang dilakukan pada perangkat keras Nvidia.
Cara Kerja DiffusionGemma
Model bahasa besar standar menghasilkan satu token pada satu waktu. DiffusionGemma menghasilkan seluruh blok teks secara simultan menggunakan arsitektur berbasis difusi. Pendekatan ini secara tajam mengurangi latensi untuk keluaran yang panjang. DeepMind menyatakan model ini mampu mengoreksi sendiri markdown kompleks dan format terstruktur selama proses generasi.
Kapabilitas tersebut ditujukan bagi pengembang yang membangun asisten kode, alat dokumentasi, dan pipeline data terstruktur. Model ini dioptimalkan untuk deployment lokal pada GPU konsumen Nvidia RTX dan sistem enterprise DGX.
Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay
Latar Belakang
Google DeepMind telah merilis beberapa varian Gemma selama setahun terakhir, masing-masing memperluas keluarga model open-weights untuk berbagai kasus penggunaan. DiffusionGemma menandai pertama kalinya DeepMind menerapkan arsitektur difusi untuk generasi teks dalam lini Gemma.
Model teks berbasis difusi sebelumnya dari lab lain telah menunjukkan keunggulan kecepatan dalam lingkungan riset namun dengan deployment dunia nyata yang terbatas. Rilisan DeepMind membawa pendekatan ini ke keluarga model yang banyak digunakan dengan tooling pengembang yang sudah ada.
Waktu perilisan ini mengikuti peluncuran Claude Fable 5 oleh Anthropic awal pekan ini, yang menetapkan benchmark baru pada tugas penalaran dan pemrograman. Fokus DeepMind pada kecepatan inferensi murni di tingkat perangkat keras menargetkan dimensi kompetitif yang berbeda, memprioritaskan throughput untuk deployment volume tinggi alih-alih skor benchmark.
Nvidia diuntungkan secara langsung. Optimalisasi untuk DGX dan RTX mengukuhkan perangkat keras Nvidia sebagai platform default untuk inferensi model frontier di tingkat lokal.
Yang perlu diperhatikan adalah kecepatan adopsi oleh pengembang dan apakah angka throughput DiffusionGemma bertahan pada konfigurasi perangkat keras non-Nvidia.
Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear





