Model AI Baru Google Capai 1.000 Token per Detik di GPU Nvidia

Google DeepMind merilis DiffusionGemma pada 10 Juni 2026, sebuah model generasi teks baru yang menghasilkan teks dalam blok paralel, bukan secara berurutan.

Perusahaan menyatakan model ini dapat mencapai hingga 1.000 token per detik pada perangkat keras GPU Nvidia.

Menurut sebuah laporan, tolok ukur DeepMind menunjukkan DiffusionGemma berjalan 4x lebih cepat dibanding model autoregresif Gemma sebelumnya pada komputasi setara. Laporan tolok ukur terpisah mengonfirmasi throughput token 10x lebih tinggi dalam pengujian inferensi konteks panjang yang dilakukan di perangkat keras Nvidia.

Cara Kerja DiffusionGemma

Model bahasa besar standar menghasilkan satu token pada satu waktu. DiffusionGemma menghasilkan seluruh blok teks secara bersamaan menggunakan arsitektur berbasis difusi. Pendekatan ini mengurangi latensi secara tajam untuk keluaran yang panjang. DeepMind menyatakan model ini mampu mengoreksi sendiri markdown kompleks dan format terstruktur selama proses generasi.

Kapabilitas tersebut ditujukan untuk pengembang yang membangun asisten kode, alat dokumentasi, dan pipeline data terstruktur. Model ini dioptimalkan untuk penempatan lokal pada GPU konsumen Nvidia RTX dan sistem enterprise DGX.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Latar Belakang

Google DeepMind telah merilis beberapa varian Gemma selama setahun terakhir, masing-masing memperluas keluarga model bobot-terbuka untuk berbagai kasus penggunaan. DiffusionGemma menandai pertama kalinya DeepMind menerapkan arsitektur difusi untuk generasi teks dalam lini Gemma.

Model teks difusi sebelumnya dari lab lain telah menunjukkan keunggulan kecepatan dalam lingkungan riset namun terbatas dalam penerapan dunia nyata. Rilis DeepMind membawa pendekatan ini ke keluarga model yang sudah banyak digunakan dengan tooling pengembang yang telah ada.

Waktunya bertepatan dengan rilis Claude Fable 5 dari Anthropic awal minggu ini, yang menetapkan tolok ukur baru pada tugas penalaran dan pengkodean. Fokus DeepMind pada kecepatan inferensi mentah di tingkat perangkat keras menargetkan dimensi kompetitif yang berbeda, dengan memprioritaskan throughput untuk penempatan volume tinggi alih-alih skor benchmark.

Nvidia mendapat manfaat langsung. Optimalisasi untuk DGX dan RTX mengukuhkan perangkat keras Nvidia sebagai platform default untuk inferensi model frontier di tingkat lokal.

Hal yang perlu dipantau adalah kecepatan adopsi oleh pengembang dan apakah angka throughput DiffusionGemma bertahan di berbagai konfigurasi perangkat keras non-Nvidia.