Berita dari CoinWorld, Google telah menerapkan arsitektur Multi-Token Prediction (MTP) pada perangkat seri Pixel 9 dan Pixel 10 untuk mempercepat langsung model Gemini Nano v3 yang tertanam. Arsitektur baru ini dengan melampirkan kepala prediksi transformer ringan ke bagian belakang model utama yang sudah dibekukan, meningkatkan kecepatan inferensi di sisi perangkat hingga lebih dari 50%, sambil tetap mempertahankan keselarasan keamanan dan kualitas keluaran yang asli. Untuk menghindari overhead memori berulang yang dihasilkan oleh perhitungan draf selama generasi autoregresif, Google merancang mekanisme zero-copy, yang berhasil menggunakan kembali aktivasi fitur yang telah dihitung oleh model utama, secara signifikan meningkatkan akurasi prediksi token kandidat. Arsitektur ini dalam praktik bisnis membuat model rata-rata berhasil memprediksi hampir 2 token lebih banyak per inferensi, mengurangi frekuensi prosesor utama yang sering terbangun karena verifikasi, sehingga menghemat konsumsi daya sistem.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 2
  • 1
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
DewdropSapling
· 3jam yang lalu
Arsitektur MTP dari Google ini memang punya sesuatu, 50% peningkatan kecepatan dan hemat daya, AI di perangkat seluler akan berubah drastis.
Lihat AsliBalas0
AirdropCartographer
· 3jam yang lalu
Mekanisme zero-copy dirancang dengan cerdik, menggunakan kembali aktivasi fitur untuk menghindari ledakan memori, detail tekniknya tepat.
Lihat AsliBalas0