PrfaaS arsitektur ini menarik, konteks panjang yang tidak cocok akan dialihkan ke kluster pengisian awal yang terpisah, permintaan pendek dilayani oleh PD lokal, penjadwalan yang peka bandwidth menghindari kemacetan yang tidak perlu

Lihat Asli
MeNews
Sisi Gelap Bulan dan Makalah Baru Tsinghua: Pra-pengisian LLM dapat melintasi pusat data, throughput model 1T meningkat 54%
Berita ME News melaporkan bahwa sisi gelap bulan dan Tsinghua mengusulkan Prefill-as-a-Service di arXiv, menjalankan tahap pra-pengisian inferensi model besar lintas pusat data. Melalui model perhatian campuran, secara signifikan mengurangi throughput cache KV, sehingga cache dapat ditransmisikan melalui Ethernet dan dikembalikan ke dekode kluster lokal. Arsitektur PrfaaS membangun kluster pra-pengisian independen, hanya merutekan permintaan yang tidak mengenai konteks panjang, sementara permintaan pendek tetap di PD lokal; dan memperkenalkan routing ambang panjang, penjadwalan yang peka bandwidth. Pengujian nyata pada model campuran 1T parameter, throughput meningkat 54% dibandingkan PD homogen, dan 32% dibandingkan dengan heterogen sederhana.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan