Tencent Hunyuan mengusulkan algoritma perhatian jarang Stem, mengurangi latensi kata pertama sebesar 3,6 kali

Berita dari Mars Finance 5 Juni, Tencent Hun Yuan mengumumkan pengajuan algoritma perhatian jarang Stem, yang telah diterima oleh konferensi pembelajaran mesin terkemuka ICML-26. Berdasarkan solusi percepatan lengkap algoritma × HPC operator Stem, dari segi algoritma, Stem melalui Penurunan Posisi Token (TPD) dan Pengukuran Persepsi Output (OAM) mencapai hampir tanpa kehilangan presisi dengan anggaran 25%; dari segi operator, operator Stem+BSA yang bersumber terbuka dari HPC mengubah keuntungan jarang menjadi percepatan perangkat keras nyata, mengurangi latensi pertama pada konteks sekitar 128K sebanyak 3,7 kali. (Pengamatan sudut lebar)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan