ME News Berita, 18 April (UTC+8), menurut pemantauan Beating dari Dongcha, Moonshot AI dan Universitas Tsinghua pada 16 April mempublikasikan makalah baru di arXiv berjudul "Prefill-as-a-Service", yang mengusulkan agar tahap pra-pengisian (prefill) inference model besar berjalan lintas pusat data. Inferensi model besar terdiri dari dua langkah: prefill membaca input sekaligus dan menghasilkan cache KV; decode kemudian mengeluarkan hasil secara bertahap berdasarkan cache tersebut. Kedua langkah membutuhkan karakteristik perangkat keras yang sama sekali berbeda, prefill membutuhkan daya komputasi, decode membutuhkan memori GPU dan bandwidth. Pendekatan utama industri adalah memisahkan kedua langkah ke mesin berbeda (PD terpisah), tetapi ini mengharuskan kedua sisi terhubung melalui RDMA dalam satu pusat data, karena cache KV dari model attention padat yang mengeluarkan puluhan Gbps per detik, jika lambat GPU akan menganggur. Perubahan terjadi berkat model attention hybrid generasi baru. Makalah menguji Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T dan model lain melalui kombinasi beberapa lapisan attention lengkap dan banyak lapisan linear, mengurangi throughput cache KV sekitar satu tingkat magnitudo, dengan rasio kompresi total Ring-2.5-1T mencapai 36 kali lipat. Pada titik ini, cache KV dapat dipindahkan dari jaringan khusus RDMA ke jaringan Ethernet biasa untuk pengunggahan. Pendekatan PrfaaS secara spesifik: membangun "cluster pra-pengisian" independen, hanya mengarahkan permintaan konteks panjang dan prefix cache yang belum terpenuhi, sementara permintaan pendek tetap di cluster PD lokal; setelah pra-pengisian selesai, cache KV dikirim kembali ke cluster lokal melalui Ethernet untuk decode. Disertai pengenalan routing berdasarkan ambang panjang, pengatur jadwal yang peka bandwidth, dan kolam cache prefix hybrid. Makalah melakukan pengujian dengan model hybrid internal 1T parameter (berbasis arsitektur Kimi Linear), yang secara keseluruhan meningkatkan throughput layanan sebesar 54% dibandingkan deployment PD yang serupa, dan 32% lebih tinggi dari solusi heterogen sederhana, dengan bandwidth lintas pusat data per mesin yang moderat. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

7 Suka

Hadiah
7
9
2
Bagikan

Komentar

Tambahkan komentar

VolatilityOfToastingBread

· 4jam yang lalu

Permintaan sing singkat untuk menyimpan PD lokal sangat masuk akal, bagaimanapun juga sensitif terhadap latensi, konteks panjang baru layak dipermainkan

Lihat AsliBalas0

DustCollector

· 6jam yang lalu

Peningkatan heterogen sederhana sebesar 32%, peningkatan PD homogen sebesar 54%, pengaturan kelompok pembanding cukup solid.

Lihat AsliBalas0

Glass-HeartMarketMaker

· 6jam yang lalu

Tsinghua + Bulan Sisi Gelap, infrastruktur model besar domestik mulai bersaing ke peringkat satu global

Lihat AsliBalas0

StainedGlassSolarArray

· 6jam yang lalu

Gerakan bulan ini cukup menarik, lemparkan pengisian awal, fokus pada decoding lokal, menang-menang dalam hal latensi dan biaya

Lihat AsliBalas0

MirrorBallReflection

· 6jam yang lalu

Model perhatian campuran adalah inti, cache KV dapat dikirim melalui Ethernet, berapa besar tingkat kompresinya?

Lihat AsliBalas0

PineNeedlesAndColdWind

· 6jam yang lalu

Penjadwalan yang sadar bandwidth terdengar sederhana, tetapi kenyataannya penuh jebakan saat diterapkan, mereka bahkan berhasil mewujudkannya

Lihat AsliBalas0

GoldfishUnderTheIce

· 6jam yang lalu

Model dengan 1T parameter sudah berjalan lancar, menunjukkan arsitektur ini tidak ada masalah skalabilitas, bukan sekadar main-main kecil.

Lihat AsliBalas0

MarginMoth

· 7jam yang lalu

PrfaaS nama ini berasal dari Prefill as a Service, sistem komputasi awan yang dipindahkan ke inferensi model besar

Lihat AsliBalas0

GateUser-78acf617

· 7jam yang lalu

54% peningkatan throughput, data ini terlihat sangat memuaskan, arsitektur heterogen akhirnya bukan lagi sekadar omong kosong

Lihat AsliBalas0

Lihat Lebih Banyak

Topik Trending
Lihat Lebih Banyak
#
WinGoldBarsWithGrowthPoints
1.23M Popularitas
#
WTICrudeFallsBelow90Dollars
1.19M Popularitas
#
IsraelStrikesIranBTCPlunges
51.49K Popularitas
#
StockTradingChallengeUpTo17000U
193.02K Popularitas
#
USIranNegotiationGame
9.41M Popularitas

Disematkan

peta situs

Sisi Gelap Bulan dan Makalah Baru Tsinghua: Pra-pengisian LLM dapat melintasi pusat data, throughput model 1T meningkat 54%

Topik Trending

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Disematkan