Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
CFD
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
IPO Access
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Promosi
AI
Gate AI
Partner AI serbaguna untuk Anda
Gate AI Bot
Gunakan Gate AI langsung di aplikasi sosial Anda
GateClaw
Gate Blue Lobster, langsung pakai
Gate for AI Agent
Infrastruktur AI, Gate MCP, Skills, dan CLI
Gate Skills Hub
10RB+ Skills
Dari kantor hingga trading, satu platform keterampilan membuat AI jadi lebih mudah digunakan
GateRouter
Pilih secara cerdas dari 40+ model AI, dengan 0% biaya tambahan
Google 新開源 DiffusionGemma 模型:生成快 4 倍,但品質落後 Gemma 4
Google DeepMind Rilis DiffusionGemma, adalah anggota baru dari keluarga open source Gemma 4.
Pengujian resmi menunjukkan, di Nvidia RTX 5090 dapat mencapai sekitar 700 token per detik, di H100 bisa menembus lebih dari 1.000 token per detik, sekitar 4 kali lipat dari model Gemma autoregresi berukuran sama.
(Kisah sebelumnya: Google meluncurkan model open source Gemma 4 12B, bisa dijalankan secara lokal dengan laptop konsumen 16GB)
(Tambahan latar belakang: Mengalahkan Google Model! Tether meluncurkan AI medis "dapat dijalankan di ponsel" QVAC MedPsy, memutuskan cloud dan mengatasi masalah privasi)
Daftar isi artikel
Toggle
Kali ini, Google DeepMind menambahkan sesuatu yang berbeda ke keluarga open source Gemma 4.
Sebagian besar model bahasa menghasilkan teks secara "autoregresif", secara sederhana yaitu, dari kiri ke kanan, menentukan satu kata dalam satu waktu, probabilitas kata berikutnya bergantung pada kata sebelumnya, menyelesaikan satu bagian output secara berurutan.
Pendekatan DiffusionGemma sama sekali berlawanan: ia terlebih dahulu mengisi seluruh "kanvas" dengan placeholder, lalu berulang kali melakukan "denoising" pada seluruh bagian tersebut, akhirnya menghasilkan satu output lengkap dalam satu kali proses. Logika ini lebih mirip cara Stable Diffusion menghasilkan gambar, bukan GPT yang menghasilkan teks.
Google resmi menyatakan, arsitektur ini memiliki keunggulan kecepatan yang terukur di hardware lokal, dan dirilis dengan lisensi Apache 2.0 untuk digunakan pengembang dan peneliti.
Seperti apa model yang tidak menghasilkan kata secara berurutan
DiffusionGemma menggunakan arsitektur "ahli campuran" (MoE).
Konsep MoE adalah, di dalam model terdapat banyak sub jaringan "ahli", tetapi setiap inferensi hanya mengaktifkan sebagian dari mereka, bukan seluruh parameter sekaligus. Secara kasual, meskipun modelnya besar, setiap proses komputasi hanya memanggil beberapa ahli yang diperlukan.
Jumlah parameter total DiffusionGemma adalah 26 miliar (26B), sedangkan saat inference yang aktif hanya 3,8 miliar (3.8B).
Ini memungkinkan model dijalankan di VRAM 18GB dari kartu grafis kelas tinggi, terutama setelah kuantisasi.
Proses generasi lebih menarik untuk diuraikan.
Model autoregresif standar adalah jalur produksi linier: token pertama keluar, baru token kedua mulai dihitung, dan seterusnya.
DiffusionGemma, sebaliknya, terlebih dahulu mengisi seluruh area output dengan token placeholder, lalu melakukan beberapa tahap denoising, di mana semua posisi token diperbarui secara bersamaan dan saling memperbaiki estimasi, sampai seluruh isi konvergen menjadi output akhir.
Dalam satu waktu, dapat memproses hingga 256 token secara paralel.
Desain ini memiliki makna konkret untuk "tugas non-linier".
Contoh yang diberikan Google adalah menyelesaikan Sudoku: model autoregresif biasa tampil biasa saja karena pengisian angka yang benar sering bergantung pada kotak lain yang belum diputuskan, dan model autoregresif hanya bisa maju secara berurutan, tidak bisa kembali.
DiffusionGemma mampu terus memperbaiki seluruh batch token secara bersamaan, sehingga secara teori lebih menguntungkan untuk tugas dengan ketergantungan logika yang kompleks.
Penggunaan lain yang disebutkan termasuk: pengeditan inline, generasi urutan molekul, dan grafik matematika.
Dari mana asal keunggulan kecepatan
Dari sudut pandang hardware, kecepatan inferensi model autoregresif dibatasi oleh "lebar pita memori", di mana setiap token yang dihasilkan harus dibaca dari memori untuk mendapatkan bobot model, dan kecepatan transfer data memori menjadi bottleneck.
Sedangkan bottleneck model difusi berbeda: ini adalah proses yang "menghitung secara intensif", di mana banyak token dihitung sekaligus, dan setiap token hanya membutuhkan jumlah baca memori yang jauh lebih sedikit.
Perpindahan bottleneck ini memiliki implikasi ekonomi nyata.
GPU modern biasanya memiliki kekuatan komputasi jauh lebih besar daripada lebar pita memori.
Metode generasi autoregresif "satu token satu waktu" berarti perangkat keras mahal ini terus menunggu data dari memori, sering kali dalam keadaan setengah idle.
Sebaliknya, generasi difusi membagi beban kerja menjadi banyak perhitungan paralel, sehingga GPU dapat memanfaatkan seluruh kekuatan komputasinya.
Untuk aplikasi yang membutuhkan waktu lama dan batch besar, karakteristik "mengoptimalkan penggunaan hardware" ini seringkali lebih nyata daripada sekadar angka kecepatan.
Perbedaan ini langsung terlihat di kecepatan pada GPU modern.
Pengujian resmi Google menunjukkan:
Di Nvidia RTX 5090 konsumen, kecepatan output DiffusionGemma sekitar 700 token per detik;
Di Nvidia H100 AI accelerator data center, bisa mencapai lebih dari 1.000 token per detik.
Menurut penilaian Google, ini sekitar 4 kali lipat dari model Gemma autoregresif berukuran sama.
Perlu ditekankan, angka-angka ini berasal dari pengujian resmi Google, bukan verifikasi independen pihak ketiga.
Dalam berbagai skenario dan panjang generasi berbeda, rasio aktual bisa berbeda.
Harga di balik kecepatan: kualitas tertinggal di semua standar
Namun, dalam semua standar pengujian terbuka yang diumumkan, skor DiffusionGemma lebih rendah dari Gemma 4 standar.
Dengan kata lain, kecepatan 4 kali lipat ini tidak datang tanpa biaya, yaitu penurunan kualitas secara sistematis.
Pengorbanan ini memiliki makna berbeda tergantung konteks penggunaannya.
Jika Anda peduli dengan output per detik, misalnya untuk pemrosesan batch besar, inferensi lokal di perangkat edge, atau aplikasi yang sangat sensitif terhadap latensi, keunggulan kecepatan DiffusionGemma nyata.
Namun, jika tugas Anda membutuhkan kualitas jawaban yang tinggi, Gemma 4 tetap lebih dapat diandalkan saat ini.
Bagi komunitas AI lokal, model ini mewakili sebuah pilihan:
Berapa banyak kualitas yang bersedia Anda tukar dengan kecepatan di hardware lokal terbatas?
Pertanyaan ini, kini, memiliki titik referensi yang bisa langsung dicoba.
Lisensi Apache 2.0 memungkinkan pengembang melakukan fine-tuning dan riset berbasis model ini, dan batasan sebenarnya dari generasi bahasa difusi akan bergantung pada komunitas untuk mengujinya.