Google 新開源 DiffusionGemma 模型:生成快 4 倍,但品質落後 Gemma 4

Google DeepMind Rilis DiffusionGemma, adalah anggota baru dari keluarga open source Gemma 4.
Pengujian resmi menunjukkan, di Nvidia RTX 5090 dapat mencapai sekitar 700 token per detik, di H100 bisa menembus lebih dari 1.000 token per detik, sekitar 4 kali lipat dari model Gemma autoregresi berukuran sama.
(Kisah sebelumnya: Google meluncurkan model open source Gemma 4 12B, bisa dijalankan secara lokal dengan laptop konsumen 16GB)
(Tambahan latar belakang: Mengalahkan Google Model! Tether meluncurkan AI medis "dapat dijalankan di ponsel" QVAC MedPsy, memutuskan cloud dan mengatasi masalah privasi)

Daftar isi artikel

Toggle

  • Seperti apa model yang tidak menghasilkan kata secara berurutan
  • Dari mana asal keunggulan kecepatan
  • Harga di balik kecepatan: kualitas tertinggal di semua standar

Kali ini, Google DeepMind menambahkan sesuatu yang berbeda ke keluarga open source Gemma 4.
Sebagian besar model bahasa menghasilkan teks secara "autoregresif", secara sederhana yaitu, dari kiri ke kanan, menentukan satu kata dalam satu waktu, probabilitas kata berikutnya bergantung pada kata sebelumnya, menyelesaikan satu bagian output secara berurutan.

Pendekatan DiffusionGemma sama sekali berlawanan: ia terlebih dahulu mengisi seluruh "kanvas" dengan placeholder, lalu berulang kali melakukan "denoising" pada seluruh bagian tersebut, akhirnya menghasilkan satu output lengkap dalam satu kali proses. Logika ini lebih mirip cara Stable Diffusion menghasilkan gambar, bukan GPT yang menghasilkan teks.

Google resmi menyatakan, arsitektur ini memiliki keunggulan kecepatan yang terukur di hardware lokal, dan dirilis dengan lisensi Apache 2.0 untuk digunakan pengembang dan peneliti.

Seperti apa model yang tidak menghasilkan kata secara berurutan

DiffusionGemma menggunakan arsitektur "ahli campuran" (MoE).

Konsep MoE adalah, di dalam model terdapat banyak sub jaringan "ahli", tetapi setiap inferensi hanya mengaktifkan sebagian dari mereka, bukan seluruh parameter sekaligus. Secara kasual, meskipun modelnya besar, setiap proses komputasi hanya memanggil beberapa ahli yang diperlukan.
Jumlah parameter total DiffusionGemma adalah 26 miliar (26B), sedangkan saat inference yang aktif hanya 3,8 miliar (3.8B).
Ini memungkinkan model dijalankan di VRAM 18GB dari kartu grafis kelas tinggi, terutama setelah kuantisasi.

Proses generasi lebih menarik untuk diuraikan.
Model autoregresif standar adalah jalur produksi linier: token pertama keluar, baru token kedua mulai dihitung, dan seterusnya.

DiffusionGemma, sebaliknya, terlebih dahulu mengisi seluruh area output dengan token placeholder, lalu melakukan beberapa tahap denoising, di mana semua posisi token diperbarui secara bersamaan dan saling memperbaiki estimasi, sampai seluruh isi konvergen menjadi output akhir.
Dalam satu waktu, dapat memproses hingga 256 token secara paralel.

Desain ini memiliki makna konkret untuk "tugas non-linier".
Contoh yang diberikan Google adalah menyelesaikan Sudoku: model autoregresif biasa tampil biasa saja karena pengisian angka yang benar sering bergantung pada kotak lain yang belum diputuskan, dan model autoregresif hanya bisa maju secara berurutan, tidak bisa kembali.
DiffusionGemma mampu terus memperbaiki seluruh batch token secara bersamaan, sehingga secara teori lebih menguntungkan untuk tugas dengan ketergantungan logika yang kompleks.

Penggunaan lain yang disebutkan termasuk: pengeditan inline, generasi urutan molekul, dan grafik matematika.

Dari mana asal keunggulan kecepatan

Dari sudut pandang hardware, kecepatan inferensi model autoregresif dibatasi oleh "lebar pita memori", di mana setiap token yang dihasilkan harus dibaca dari memori untuk mendapatkan bobot model, dan kecepatan transfer data memori menjadi bottleneck.
Sedangkan bottleneck model difusi berbeda: ini adalah proses yang "menghitung secara intensif", di mana banyak token dihitung sekaligus, dan setiap token hanya membutuhkan jumlah baca memori yang jauh lebih sedikit.

Perpindahan bottleneck ini memiliki implikasi ekonomi nyata.
GPU modern biasanya memiliki kekuatan komputasi jauh lebih besar daripada lebar pita memori.
Metode generasi autoregresif "satu token satu waktu" berarti perangkat keras mahal ini terus menunggu data dari memori, sering kali dalam keadaan setengah idle.

Sebaliknya, generasi difusi membagi beban kerja menjadi banyak perhitungan paralel, sehingga GPU dapat memanfaatkan seluruh kekuatan komputasinya.
Untuk aplikasi yang membutuhkan waktu lama dan batch besar, karakteristik "mengoptimalkan penggunaan hardware" ini seringkali lebih nyata daripada sekadar angka kecepatan.

Perbedaan ini langsung terlihat di kecepatan pada GPU modern.
Pengujian resmi Google menunjukkan:
Di Nvidia RTX 5090 konsumen, kecepatan output DiffusionGemma sekitar 700 token per detik;
Di Nvidia H100 AI accelerator data center, bisa mencapai lebih dari 1.000 token per detik.
Menurut penilaian Google, ini sekitar 4 kali lipat dari model Gemma autoregresif berukuran sama.

Perlu ditekankan, angka-angka ini berasal dari pengujian resmi Google, bukan verifikasi independen pihak ketiga.
Dalam berbagai skenario dan panjang generasi berbeda, rasio aktual bisa berbeda.

Harga di balik kecepatan: kualitas tertinggal di semua standar

Namun, dalam semua standar pengujian terbuka yang diumumkan, skor DiffusionGemma lebih rendah dari Gemma 4 standar.
Dengan kata lain, kecepatan 4 kali lipat ini tidak datang tanpa biaya, yaitu penurunan kualitas secara sistematis.

Pengorbanan ini memiliki makna berbeda tergantung konteks penggunaannya.
Jika Anda peduli dengan output per detik, misalnya untuk pemrosesan batch besar, inferensi lokal di perangkat edge, atau aplikasi yang sangat sensitif terhadap latensi, keunggulan kecepatan DiffusionGemma nyata.
Namun, jika tugas Anda membutuhkan kualitas jawaban yang tinggi, Gemma 4 tetap lebih dapat diandalkan saat ini.

Bagi komunitas AI lokal, model ini mewakili sebuah pilihan:
Berapa banyak kualitas yang bersedia Anda tukar dengan kecepatan di hardware lokal terbatas?
Pertanyaan ini, kini, memiliki titik referensi yang bisa langsung dicoba.
Lisensi Apache 2.0 memungkinkan pengembang melakukan fine-tuning dan riset berbasis model ini, dan batasan sebenarnya dari generasi bahasa difusi akan bergantung pada komunitas untuk mengujinya.

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan