Google open-source Gemma 4 seluruh rangkaian model decoding spekulatif MTP, mempercepat hingga 3 kali lipat

robot
Pembuatan abstrak sedang berlangsung

Berita dari CoinWorld, Google merilis dan membuka sumber model draft prediksi multi-token (MTP) dari seri Gemma 4. Model ini menggunakan arsitektur decoding spekulatif, mampu mempercepat inferensi hingga 3 kali lipat tanpa mengorbankan kualitas output, dengan tetap mempertahankan hak verifikasi akhir pada model utama. Skema MTP memanfaatkan daya komputasi yang tidak terpakai untuk memprediksi beberapa token masa depan sebelumnya, kemudian diverifikasi secara paralel oleh model target yang berat. Jika model target menyetujui draft tersebut, seluruh rangkaian akan diterima sekaligus. Model draft berbagi status aktivasi dan cache KV dengan model target, dan untuk model E2B dan E4B, tim memperkenalkan teknologi clustering pada lapisan embedding. Saat ini, model MTP telah sepenuhnya open source, mendukung kerangka inferensi utama seperti VLLM, SGLang, dan Ollama. Optimisasi ini secara signifikan menurunkan hambatan penggunaan, memungkinkan pengembang menjalankan model MOE 26B dan model padat 31B secara lancar pada GPU konsumen biasa, serta mendukung interaksi AI real-time dengan konsumsi daya yang lebih rendah di perangkat mobile.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan