Google Pixel menerapkan MTP zero-copy, mempercepat inferensi Gemini Nano lebih dari 50% dan menghemat memori.

robot
Pembuatan abstrak sedang berlangsung
Berdasarkan pemantauan Beating, Google telah menerapkan arsitektur Multi-Token Prediction (MTP) pada perangkat seri Pixel 9 dan Pixel 10, yang secara langsung mempercepat model Gemini Nano v3 yang tertanam. Dengan menempelkan kepala prediksi Transformer ringan di bagian akhir model utama yang telah dibekukan, arsitektur baru ini meningkatkan kecepatan inferensi di perangkat lebih dari 50% sambil sepenuhnya mempertahankan keselarasan keamanan dan kualitas output asli.
Decoding spekulatif tradisional memerlukan model draf independen untuk memprediksi token kandidat. Ini tidak hanya memakan memori operasi ponsel secara ekstra, tetapi juga akurasi prediksi terbatas karena model independen tidak dapat mengakses status tersembunyi internal dari model utama. Arsitektur baru ini berhasil memanfaatkan fitur aktivasi yang telah dihitung oleh model utama dengan menyematkan kepala MTP di bagian akhir model utama yang dibekukan, secara signifikan meningkatkan akurasi prediksi token kandidat.
Untuk menghindari overhead memori operasi berulang dari perhitungan draf saat generasi autoregresif, Google merancang mekanisme zero-copy. Dalam skema tradisional, model draf perlu mempertahankan cache key-value (KV cache) independen saat menghasilkan kata kandidat, sementara mekanisme zero-copy memungkinkan kepala prediksi eksternal langsung membaca cache yang sudah ada dari model utama melalui cross-attention. Ini tidak hanya menghilangkan latensi start dari prediksi draf, tetapi juga menghemat sekitar 130MB ruang memori operasi untuk ponsel.
Dalam berbagai bisnis Pixel seperti ringkasan notifikasi dan proofreading teks, arsitektur MTP memungkinkan model rata-rata berhasil memprediksi hampir 2 token lebih banyak per inferensi, mengurangi frekuensi pemroses utama terbangun karena verifikasi, sehingga menghemat konsumsi daya sistem. Dalam tugas generasi teks terstruktur tinggi seperti balasan cerdas, tingkat penerimaan token meningkat hingga 55%.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar