Tsinghua + Bulan Sisi Gelap kali ini memisahkan pra-pengisian, cache KV dapat ditanggung oleh jaringan Ethereum, peningkatan throughput sebesar 54% memang mengesankan, struktur biaya inferensi konteks panjang akan mengalami perubahan besar

Lihat Asli
MeNews
Sisi Gelap Bulan dan Makalah Baru Tsinghua: Pra-pengisian LLM dapat melintasi pusat data, throughput model 1T meningkat 54%
Berita ME News melaporkan bahwa sisi gelap bulan dan Tsinghua mengusulkan Prefill-as-a-Service di arXiv, menjalankan tahap pra-pengisian inferensi model besar lintas pusat data. Melalui model perhatian campuran, secara signifikan mengurangi throughput cache KV, sehingga cache dapat ditransmisikan melalui Ethernet dan dikembalikan ke dekode kluster lokal. Arsitektur PrfaaS membangun kluster pra-pengisian independen, hanya merutekan permintaan yang tidak mengenai konteks panjang, sementara permintaan pendek tetap di PD lokal; dan memperkenalkan routing ambang panjang, penjadwalan yang peka bandwidth. Pengujian nyata pada model campuran 1T parameter, throughput meningkat 54% dibandingkan PD homogen, dan 32% dibandingkan dengan heterogen sederhana.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan