Berita dari CoinWorld, Google merilis dan membuka sumber model draft prediksi multi-token (MTP) seri Gemma 4. Ini adalah model pendukung ringan yang menggunakan arsitektur decoding spekulatif (speculative decoding), mampu mempercepat inferensi hingga 3 kali lipat sambil mempertahankan bobot verifikasi akhir dari model utama, tanpa mengorbankan kualitas output dan kemampuan penalaran logika. Model ini telah dirilis secara terbuka dengan lisensi Apache 2.0 yang sama dengan Gemma 4, dan secara native mendukung kerangka inferensi utama seperti vllm, sglang, dan ollama. Optimisasi peningkatan kecepatan kali ini secara signifikan menurunkan ambang aplikasi, memungkinkan pengembang menjalankan model 26b moe dan 31b dense secara lancar pada kartu grafis konsumen biasa, serta mendukung interaksi AI waktu nyata dengan konsumsi daya yang lebih rendah di perangkat mobile.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan