Sisi Gelap Bulan dan Makalah Baru Tsinghua: Pra-pengisian LLM dapat melintasi pusat data, throughput model 1T meningkat 54%

robot
Pembuatan abstrak sedang berlangsung
ME News Berita, 18 April (UTC+8), menurut pemantauan Beating dari Dongcha, Moonshot AI dan Universitas Tsinghua pada 16 April mempublikasikan makalah baru di arXiv berjudul "Prefill-as-a-Service", yang mengusulkan agar tahap pra-pengisian (prefill) inference model besar berjalan lintas pusat data. Tahap inference model besar terdiri dari dua langkah: prefill membaca input secara sekaligus dan menghasilkan cache KV; decode kemudian mengeluarkan hasil secara per karakter berdasarkan cache tersebut. Kedua langkah membutuhkan karakteristik perangkat keras yang sama sekali berbeda, prefill membutuhkan daya komputasi, decode membutuhkan memori GPU dan bandwidth. Pendekatan utama industri adalah memisahkan kedua langkah ke mesin berbeda (PD terpisah), tetapi ini mengharuskan kedua sisi terhubung melalui RDMA di pusat data yang sama, karena cache KV dari model attention padat yang mengeluarkan data puluhan Gbps per detik, jika lambat GPU akan menganggur. Perubahan datang dari model attention hybrid generasi baru. Makalah menguji secara nyata model Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T dan lainnya yang menggabungkan beberapa lapisan attention lengkap dengan banyak lapisan linear, sehingga mengurangi throughput cache KV sekitar satu tingkat magnitudo, dengan rasio kompresi total Ring-2.5-1T mencapai 36 kali lipat. Pada titik ini, cache KV dapat dipindahkan dari jaringan khusus RDMA ke jaringan Ethernet biasa untuk diunggah. Pendekatan PrfaaS secara spesifik: membentuk "cluster pra-pengisian" independen, hanya mengarahkan permintaan konteks panjang dan prefix cache yang belum terpenuhi, sementara permintaan pendek tetap di cluster PD lokal; setelah pra-pengisian selesai, cache KV dikirim kembali ke cluster lokal melalui Ethernet untuk decode. Dilengkapi dengan pengenalan ambang panjang, pengatur jadwal yang peka bandwidth, dan kolam cache prefix hybrid. Makalah melakukan serangkaian pengujian dengan model hybrid internal 1T parameter (berbasis arsitektur Kimi Linear), secara keseluruhan throughput layanan lebih tinggi 54% dibandingkan dengan deployment PD yang serupa, dan 32% lebih tinggi dibandingkan solusi heterogen sederhana, dengan bandwidth lintas pusat data per mesin yang moderat. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 7
  • 2
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
ExitLiquidityPoet
· 2jam yang lalu
Hanya melakukan rute jarak jauh jika konteks panjang tidak terpenuhi, permintaan singkat diproses secara lokal, strategi routing ini sangat rinci
Lihat AsliBalas0
MetalReliefRoboticArm
· 3jam yang lalu
PD Homograf vs Heterograf vs PrfaaS, desain percobaan perbandingan ini cukup bersih
Lihat AsliBalas0
StopMessingAroundWithGasFees.
· 3jam yang lalu
Model dengan 1T parameter diuji secara nyata, berani menjalankan model sebesar ini, kepercayaan diri cukup tinggi
Lihat AsliBalas0
GateUser-4590f4c6
· 3jam yang lalu
Menganggap pengisian otomatis sebagai layanan yang dijual, apakah nanti akan muncul pengisian otomatis yang langsung pakai?
Lihat AsliBalas0
MoonlightDisconnectSwitch
· 4jam yang lalu
Melihat seluruh artikel, yang paling ingin diketahui adalah berapa toleransi tingkat kehilangan paket saat penerapan sebenarnya
Lihat AsliBalas0
GlassDomeRoaming
· 4jam yang lalu
Penjadwalan yang sadar bandwidth, sederhananya adalah berhemat saat kekurangan, jika jaringan mahal maka harus cermat dalam pengelolaan
Lihat AsliBalas0
GlassFishTankArbitrage
· 4jam yang lalu
Menyimpan cache KV melalui Ethernet, dulu merasa gila, sekarang malah menjadi makalah
Lihat AsliBalas0
  • Disematkan