DiffusionGemma mengubah cara model bahasa besar (LLM) memproses teks. Alih-alih menulis kata demi kata secara berurutan — proses yang membuat AI chatting terasa seperti sedang mengetik — model ini memulai dari derau acak dan menyempurnakan seluruh blok kalimat sekaligus. Teknik yang sama dipakai model generasi gambar seperti Stable Diffusion, kini diterapkan ke teks untuk pertama kalinya di kelas ini.
DiffusionGemma dibangun di atas Gemma 4, model mixture-of-experts 26 miliar parameter yang hanya mengaktifkan 3,8 miliar parameter per langkah. Dengan kepala difusi yang ditempelkan ke arsitektur Gemma, model ini bisa "mendenoise" hingga 256 token dalam satu waktu — setara dengan beberapa paragraf pendek.
Performa mentahnya mencolok: 1.000 token per detik di satu GPU NVIDIA H100, 150 token/detik di DGX Spark, dan hingga 2.000 token/detik di DGX Station. Sebagai perbandingan, model autoregressive seukuran itu biasanya hanya mencapai seperempat kecepatan tersebut dalam skenario pengguna tunggal.
Bagi pengembang di Indonesia yang sering menghadapi keterbatasan bandwidth atau biaya token cloud, DiffusionGemma adalah kabar baik. Model ini dirilis dengan lisensi Apache 2.0 — bebas digunakan, dimodifikasi, dan dijalankan secara lokal. NVIDIA mengonfirmasi dukungan langsung di Hugging Face Transformers, vLLM, dan Unsloth sejak hari pertama rilis.
Artinya, developer bisa menjalankan model ini di laptop dengan GPU RTX 5090 atau di DGX Spark — perangkat seukuran PC mini yang ditenagai superchip GB10 Grace Blackwell dengan memori terpadu 128 GB — tanpa perlu koneksi internet untuk inferensi. Biaya per-token nol rupiah.
NVIDIA mengoptimalkan DiffusionGemma untuk seluruh jajaran GPU mereka. Di level konsumen, pengguna GeForce RTX bisa mulai mencoba melalui Hugging Face dengan dukungan llama.cpp yang akan menyusul. Untuk profesional, RTX PRO 6000 dan DGX Station menawarkan ruang kepala lebih besar untuk agentic loop dan fine-tuning lokal.
DGX Spark, yang baru diperkenalkan sebagai "superkomputer AI pribadi", menjadi sorotan. NVIDIA mengklaim perangkat ini bisa booting dari kardus ke agen AI yang berjalan dalam hitungan menit berkat tumpukan perangkat lunak NeMoClaw. Empat unit DGX Spark bahkan bisa digabung menjadi satu kumpulan memori 512 GB — cukup untuk model sekitar 400 miliar parameter.
Bersamaan dengan DiffusionGemma, NVIDIA merilis SANA-WM, model dunia sumber terbuka yang mengubah satu gambar dan jalur kamera menjadi video 720p selama satu menit dengan kontrol 6 derajat kebebasan. Versi destilasi model ini, yang hanya 2,6 miliar parameter, menghasilkan klip 60 detik dalam 34 detik di satu GPU RTX 5090 — 36 kali lebih cepat dari model terbuka sebanding.
DiffusionGemma sudah bisa diuji coba gratis melalui Hugging Face atau API yang dihosting NVIDIA di build.nvidia.com. Dokumentasi arsitektur dan panduan deployment lokal tersedia di blog teknis NVIDIA dan pengumuman Google DeepMind.