Pencarian

Google DeepMind Rilis DiffusionGemma, Model AI yang Bisa Menulis 256 Kata Sekaligus di PC Lokal

Kamis, 11 Juni 2026 • 17:34:01 WIB
Google DeepMind Rilis DiffusionGemma, Model AI yang Bisa Menulis 256 Kata Sekaligus di PC Lokal
DiffusionGemma memperkenalkan metode baru menulis teks AI dengan menyempurnakan blok kalimat sekaligus.

DiffusionGemma mengubah cara model bahasa besar (LLM) memproses teks. Alih-alih menulis kata demi kata secara berurutan — proses yang membuat AI chatting terasa seperti sedang mengetik — model ini memulai dari derau acak dan menyempurnakan seluruh blok kalimat sekaligus. Teknik yang sama dipakai model generasi gambar seperti Stable Diffusion, kini diterapkan ke teks untuk pertama kalinya di kelas ini.

Bukan Sekadar Model Cepat, tapi Arsitektur yang Berbeda Sama Sekali

DiffusionGemma dibangun di atas Gemma 4, model mixture-of-experts 26 miliar parameter yang hanya mengaktifkan 3,8 miliar parameter per langkah. Dengan kepala difusi yang ditempelkan ke arsitektur Gemma, model ini bisa "mendenoise" hingga 256 token dalam satu waktu — setara dengan beberapa paragraf pendek.

Performa mentahnya mencolok: 1.000 token per detik di satu GPU NVIDIA H100, 150 token/detik di DGX Spark, dan hingga 2.000 token/detik di DGX Station. Sebagai perbandingan, model autoregressive seukuran itu biasanya hanya mencapai seperempat kecepatan tersebut dalam skenario pengguna tunggal.

Kenapa Ini Penting untuk Developer Lokal

Bagi pengembang di Indonesia yang sering menghadapi keterbatasan bandwidth atau biaya token cloud, DiffusionGemma adalah kabar baik. Model ini dirilis dengan lisensi Apache 2.0 — bebas digunakan, dimodifikasi, dan dijalankan secara lokal. NVIDIA mengonfirmasi dukungan langsung di Hugging Face Transformers, vLLM, dan Unsloth sejak hari pertama rilis.

Artinya, developer bisa menjalankan model ini di laptop dengan GPU RTX 5090 atau di DGX Spark — perangkat seukuran PC mini yang ditenagai superchip GB10 Grace Blackwell dengan memori terpadu 128 GB — tanpa perlu koneksi internet untuk inferensi. Biaya per-token nol rupiah.

Dari PC ke Workstation: Seluruh Lini NVIDIA Kebagian Jatah

NVIDIA mengoptimalkan DiffusionGemma untuk seluruh jajaran GPU mereka. Di level konsumen, pengguna GeForce RTX bisa mulai mencoba melalui Hugging Face dengan dukungan llama.cpp yang akan menyusul. Untuk profesional, RTX PRO 6000 dan DGX Station menawarkan ruang kepala lebih besar untuk agentic loop dan fine-tuning lokal.

DGX Spark, yang baru diperkenalkan sebagai "superkomputer AI pribadi", menjadi sorotan. NVIDIA mengklaim perangkat ini bisa booting dari kardus ke agen AI yang berjalan dalam hitungan menit berkat tumpukan perangkat lunak NeMoClaw. Empat unit DGX Spark bahkan bisa digabung menjadi satu kumpulan memori 512 GB — cukup untuk model sekitar 400 miliar parameter.

Bukan Cuma Teks: NVIDIA Juga Rilis Model Dunia SANA-WM

Bersamaan dengan DiffusionGemma, NVIDIA merilis SANA-WM, model dunia sumber terbuka yang mengubah satu gambar dan jalur kamera menjadi video 720p selama satu menit dengan kontrol 6 derajat kebebasan. Versi destilasi model ini, yang hanya 2,6 miliar parameter, menghasilkan klip 60 detik dalam 34 detik di satu GPU RTX 5090 — 36 kali lebih cepat dari model terbuka sebanding.

DiffusionGemma sudah bisa diuji coba gratis melalui Hugging Face atau API yang dihosting NVIDIA di build.nvidia.com. Dokumentasi arsitektur dan panduan deployment lokal tersedia di blog teknis NVIDIA dan pengumuman Google DeepMind.

Bagikan
Sumber: blogs.nvidia.com

This article was automatically rewritten by AI based on the source above without altering the facts of the original article.

Berita Lainnya

Indeks

Pilihan

Indeks

Berita Terkini

Indeks