Model AI Baru Google Capai 1.000 Token Per Detik di GPU Nvidia

Model AI Baru Google Capai 1.000 Token Per Detik di GPU Nvidia

Google DeepMind merilis DiffusionGemma pada 10 Juni 2026, sebuah model generasi teks baru yang menghasilkan teks dalam blok paralel, bukan secara berurutan.

Perusahaan menyatakan model ini mampu mencapai hingga 1.000 token per detik pada perangkat keras GPU Nvidia.

Menurut sebuah laporan, benchmark DeepMind menunjukkan DiffusionGemma berjalan 4x lebih cepat dibanding model autoregresif Gemma sebelumnya pada komputasi yang setara. Laporan benchmark terpisah mengonfirmasi throughput token 10x lebih tinggi dalam uji inferensi konteks panjang yang dilakukan pada perangkat keras Nvidia.

Cara Kerja DiffusionGemma

Model bahasa besar standar menghasilkan satu token pada satu waktu. DiffusionGemma menghasilkan seluruh blok teks secara simultan menggunakan arsitektur berbasis difusi. Pendekatan ini secara tajam mengurangi latensi untuk keluaran yang panjang. DeepMind menyatakan model ini mampu mengoreksi sendiri markdown kompleks dan format terstruktur selama proses generasi.

Kapabilitas tersebut ditujukan bagi pengembang yang membangun asisten kode, alat dokumentasi, dan pipeline data terstruktur. Model ini dioptimalkan untuk deployment lokal pada GPU konsumen Nvidia RTX dan sistem enterprise DGX.

Also Read: SpaceX’s $75B IPO May Be In Trouble As Warren Pushes SEC Delay

Latar Belakang

Google DeepMind telah merilis beberapa varian Gemma selama setahun terakhir, masing-masing memperluas keluarga model open-weights untuk berbagai kasus penggunaan. DiffusionGemma menandai pertama kalinya DeepMind menerapkan arsitektur difusi untuk generasi teks dalam lini Gemma.

Model teks berbasis difusi sebelumnya dari lab lain telah menunjukkan keunggulan kecepatan dalam lingkungan riset namun dengan deployment dunia nyata yang terbatas. Rilisan DeepMind membawa pendekatan ini ke keluarga model yang banyak digunakan dengan tooling pengembang yang sudah ada.

Waktu perilisan ini mengikuti peluncuran Claude Fable 5 oleh Anthropic awal pekan ini, yang menetapkan benchmark baru pada tugas penalaran dan pemrograman. Fokus DeepMind pada kecepatan inferensi murni di tingkat perangkat keras menargetkan dimensi kompetitif yang berbeda, memprioritaskan throughput untuk deployment volume tinggi alih-alih skor benchmark.

Nvidia diuntungkan secara langsung. Optimalisasi untuk DGX dan RTX mengukuhkan perangkat keras Nvidia sebagai platform default untuk inferensi model frontier di tingkat lokal.

Yang perlu diperhatikan adalah kecepatan adopsi oleh pengembang dan apakah angka throughput DiffusionGemma bertahan pada konfigurasi perangkat keras non-Nvidia.

Read Next: SpaceX's $250B IPO Is Draining Crypto Liquidity, Traders Fear

Penafian dan Peringatan Risiko: Informasi yang diberikan dalam artikel ini hanya untuk tujuan edukasi dan informasi dan berdasarkan opini penulis. Ini tidak merupakan saran keuangan, investasi, hukum, atau pajak. Aset kripto sangat fluktuatif dan mengalami risiko tinggi, termasuk risiko kehilangan seluruh atau sebagian besar investasi Anda. Trading atau memegang aset kripto mungkin tidak cocok untuk semua investor. Pandangan yang dinyatakan dalam artikel ini adalah pandangan penulis saja dan tidak mewakili kebijakan resmi atau posisi Yellow, pendirinya, atau eksekutifnya. Selalu lakukan riset menyeluruh Anda sendiri (D.Y.O.R.) dan konsultasikan dengan profesional keuangan berlisensi sebelum membuat keputusan investasi apapun.