Google merilis dan membuka sumber draft model seri Gemma 4 untuk prediksi multi-token (MTP), menggunakan decoding spekulatif, mencapai percepatan inferensi hingga 3 kali lipat tanpa mengorbankan kualitas output dengan mempertahankan bobot utama model akhir. MTP memanfaatkan daya komputasi yang tidak terpakai untuk memprediksi multi jalur token masa depan sebelumnya, dan diverifikasi secara paralel oleh model target yang berat; Jika disetujui sebagai draft, seluruh segmen urutan diterima sekaligus dan berbagi status aktivasi serta cache KV. Memperkenalkan klasterisasi untuk lapisan embedding E2B/E4B. MTP telah sepenuhnya open source, mendukung kerangka kerja seperti VLLM, SGLang, Ollama, dan lain-lain, dapat berjalan lancar di GPU kelas konsumen untuk model 26B MOE dan 31B dense, serta mengurangi konsumsi daya AI real-time di perangkat mobile.

CoinNetwork

2026-05-06 00:37:51

Pembuatan abstrak sedang berlangsung

Berita dari CoinWorld, Google merilis dan membuka sumber model draft prediksi multi-token (MTP) dari seri Gemma 4. Model ini menggunakan arsitektur decoding spekulatif, mampu mempercepat inferensi hingga 3 kali lipat tanpa mengorbankan kualitas output, dengan tetap mempertahankan hak verifikasi akhir pada model utama. Skema MTP memanfaatkan daya komputasi yang tidak terpakai untuk memprediksi beberapa token masa depan sebelumnya, kemudian diverifikasi secara paralel oleh model target yang berat. Jika model target menyetujui draft tersebut, seluruh rangkaian akan diterima sekaligus. Model draft berbagi status aktivasi dan cache KV dengan model target, dan untuk model E2B dan E4B, tim memperkenalkan teknologi clustering pada lapisan embedding. Saat ini, model MTP telah sepenuhnya open source, mendukung kerangka inferensi utama seperti VLLM, SGLang, dan Ollama. Optimisasi ini secara signifikan menurunkan hambatan penggunaan, memungkinkan pengembang menjalankan model MOE 26B dan model padat 31B secara lancar pada GPU konsumen biasa, serta mendukung interaksi AI real-time dengan konsumsi daya yang lebih rendah di perangkat mobile.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateSquareMayTradingShare
357.68K Popularitas
#
BitcoinHoldsFirmAbove80K
94.28M Popularitas
#
CryptoMarketRecovery
110.51K Popularitas
#
IsraelStrikesIranBTCPlunges
43.21K Popularitas
#
AaveSuesToUnfreeze73MInETH
4.15K Popularitas

Sematkan

peta situs

Google open-source Gemma 4 seluruh rangkaian model decoding spekulatif MTP, mempercepat hingga 3 kali lipat

Topik Trending

GateSquareMayTradingShare

BitcoinHoldsFirmAbove80K

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

AaveSuesToUnfreeze73MInETH

Sematkan