Sisi Gelap Bulan dan Makalah Baru Tsinghua: Pra-pengisian LLM dapat melintasi pusat data, throughput model 1T meningkat 54%

robot
Pembuatan abstrak sedang berlangsung
ME News Berita, 18 April (UTC+8), menurut pemantauan Beating dari Dongcha, Moonshot AI dan Universitas Tsinghua pada 16 April mempublikasikan makalah baru di arXiv berjudul "Prefill-as-a-Service", yang mengusulkan agar tahap pra-pengisian (prefill) inference model besar berjalan lintas pusat data. Inferensi model besar dilakukan dalam dua langkah: prefill membaca input sekaligus dan menghasilkan cache KV; decode kemudian mengeluarkan hasil secara per karakter berdasarkan cache tersebut. Kedua langkah membutuhkan karakteristik perangkat keras yang sama sekali berbeda, prefill membutuhkan daya komputasi, decode membutuhkan memori GPU dan bandwidth. Pendekatan utama di industri adalah memisahkan kedua langkah ke mesin berbeda (PD terpisah), tetapi ini mengharuskan kedua sisi terhubung melalui RDMA di pusat data yang sama, karena cache KV dari model attention padat yang mengeluarkan puluhan Gbps per detik, jika lambat, GPU akan idle. Perubahan datang dari model attention hybrid generasi baru. Makalah menguji secara nyata model Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T dan lainnya yang menggabungkan beberapa lapisan attention lengkap dengan banyak lapisan linear, sehingga mengurangi throughput cache KV sekitar satu tingkat magnitudo, dengan rasio kompresi total Ring-2.5-1T mencapai 36 kali lipat. Pada titik ini, cache KV dapat dipindahkan dari jaringan khusus RDMA ke jaringan Ethernet biasa untuk pengunggahan. Pendekatan PrfaaS secara spesifik: membentuk "cluster pra-pengisian" independen, hanya mengarahkan permintaan konteks panjang dan prefix cache yang belum terpenuhi, sementara permintaan pendek tetap di cluster PD lokal; setelah pra-pengisian selesai, cache KV dikirim kembali melalui Ethernet ke cluster lokal untuk decode. Dilengkapi dengan pengenalan ambang panjang, pengatur jadwal yang peka bandwidth, dan kolam cache prefix hybrid. Makalah melakukan serangkaian pengujian dengan model hybrid internal 1T parameter (berbasis arsitektur Kimi Linear), secara keseluruhan throughput layanan meningkat 54% dibandingkan dengan deployment PD yang serupa, 32% lebih tinggi dari solusi heterogen sederhana, dan setiap mesin hanya menggunakan bandwidth lintas pusat data yang moderat. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 6
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
DewdropSapling
· 27menit yang lalu
PrfaaS ini namanya, apakah nanti masih ada Decode-as-a-Service
Lihat AsliBalas0
InstantNoodle-LevelResearcher
· 1jam yang lalu
Tsinghua + Bulan Sisi Gelap, infrastruktur model besar dalam negeri mulai bersaing ke arah baru
Lihat AsliBalas0
LateBlockLarry
· 1jam yang lalu
Peningkatan 54% terlihat menarik, tetapi dalam penerapannya harus mempertimbangkan isolasi multi-penyewa dan pemulihan dari gangguan
Lihat AsliBalas0
MempoolMaggie
· 1jam yang lalu
Jaringan Ethernet mentransfer cache KV, biaya bandwidth dihitung lebih mahal daripada kekuatan komputasi, kan?
Lihat AsliBalas0
MintLiquidationWarning
· 2jam yang lalu
Hanya rute panjang konteks atas tidak cocok, permintaan singkat disimpan secara lokal, strategi hierarki ini cukup praktis.
Lihat AsliBalas0
GateUser-2100b43b
· 2jam yang lalu
Model perhatian campuran mengurangi throughput cache KV, ide ini mengingatkan saya pada beberapa trik pelatihan terdistribusi awal
Lihat AsliBalas0
  • Disematkan