ME News Berita, 18 April (UTC+8), menurut pemantauan Beating dari Dongcha, Moonshot AI dan Universitas Tsinghua pada 16 April mempublikasikan makalah baru di arXiv berjudul "Prefill-as-a-Service", yang mengusulkan agar tahap pra-pengisian (prefill) inference model besar berjalan lintas pusat data. Inferensi model besar terdiri dari dua langkah: prefill membaca input sekaligus dan menghasilkan cache KV; decode kemudian mengeluarkan hasil secara bertahap berdasarkan cache tersebut. Kedua langkah membutuhkan karakteristik perangkat keras yang sama sekali berbeda, prefill membutuhkan daya komputasi, decode membutuhkan memori GPU dan bandwidth. Pendekatan utama industri adalah memisahkan kedua langkah ke mesin berbeda (PD terpisah), tetapi ini mengharuskan kedua sisi terhubung melalui RDMA dalam satu pusat data, karena cache KV dari model attention padat yang mengeluarkan puluhan Gbps per detik, jika lambat GPU akan menganggur. Perubahan datang dari model attention hybrid generasi baru. Makalah menguji secara nyata model Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T dan lainnya yang menggabungkan beberapa lapisan attention lengkap dengan banyak lapisan linear, mengurangi throughput cache KV sekitar satu tingkat magnitudo, dengan rasio kompresi total Ring-2.5-1T mencapai 36 kali lipat. Pada titik ini, cache KV dapat dipindahkan dari jaringan khusus RDMA ke jaringan Ethernet biasa untuk pengunggahan. Pendekatan PrfaaS secara spesifik: membentuk "cluster pra-pengisian" independen, hanya mengarahkan permintaan konteks panjang dan prefix cache yang belum terpenuhi, sementara permintaan pendek tetap di cluster PD lokal; setelah pra-pengisian selesai, cache KV dikirim kembali ke cluster lokal melalui Ethernet untuk decode. Dilengkapi dengan pengenalan ambang panjang, pengatur jadwal yang peka bandwidth, dan kolam cache prefix hybrid. Makalah melakukan serangkaian pengujian dengan model hybrid internal 1T parameter (berbasis arsitektur Kimi Linear), secara keseluruhan throughput layanan meningkat 54% dibandingkan deployment PD yang serupa, 32% lebih tinggi dari skema heterogen sederhana, dengan bandwidth lintas pusat data per mesin yang moderat. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

11 Suka

Hadiah
11
10
2
Bagikan

Komentar

Tambahkan komentar

RocksUnderTheAurora

· 6jam yang lalu

Tsinghua + Bulan Sisi Gelap, Infrastruktur model besar domestik telah mencapai konferensi internasional terkemuka

Lihat AsliBalas0

YieldNotYell

· 11jam yang lalu

Desain routing berdasarkan ambang panjang ini sangat detail, memisahkan permintaan panjang dan pendek adalah optimisasi yang tepat.

Lihat AsliBalas0

CircuitDaydreamer

· 13jam yang lalu

Membaca secara mendalam makalah tentang model perhatian campuran yang menurunkan throughput cache KV, detail teknis, dan lain-lain

Lihat AsliBalas0

AirdropCartographer

· 15jam yang lalu

Peningkatan sebesar 54% memang menarik, tetapi bagaimana mengatasi jitter saat menggunakan Ethernet antar pusat data

Lihat AsliBalas0

DeepSeaColdStart

· 15jam yang lalu

Hanya permintaan yang tidak cocok dengan routing, tingkat keberhasilan cache menjadi hambatan utama

Lihat AsliBalas0

UnderTheGlassDome

· 15jam yang lalu

PD Homograf vs PD Heterograf vs PrfaaS, perbandingan dimensi ini cukup cerdas diatur

Lihat AsliBalas0

BluePeonyCalmingAgent

· 15jam yang lalu

1T parameter model diuji ini, biaya perangkat keras tidak berani dibayangkan

Lihat AsliBalas0

GateUser-fb035825

· 15jam yang lalu

Penempatan klaster yang dipra-konfigurasi secara independen, kompleksitas operasional meningkat lagi, apakah manfaatnya sepadan?

Lihat AsliBalas0

IdleFishDaoMember

· 15jam yang lalu

Penjadwalan yang sadar bandwidth terdengar sederhana, tetapi kenyataannya implementasinya diperkirakan penuh jebakan

Lihat AsliBalas0

GateUser-aa277334

· 15jam yang lalu

Gagasan ini menarik, melempar pengisian awal ke server jarak jauh, fokus di lokal untuk decoding, apakah latensinya bisa ditanggung?

Lihat AsliBalas0

Lihat Lebih Banyak

Topik Trending
Lihat Lebih Banyak
#
WinGoldBarsWithGrowthPoints
1.22M Popularitas
#
WTICrudeFallsBelow90Dollars
1.18M Popularitas
#
IsraelStrikesIranBTCPlunges
51.3K Popularitas
#
StockTradingChallengeUpTo17000U
184.81K Popularitas
#
USIranNegotiationGame
9.41M Popularitas

Disematkan

peta situs

Sisi Gelap Bulan dan Makalah Baru Tsinghua: Pra-pengisian LLM dapat melintasi pusat data, throughput model 1T meningkat 54%

Topik Trending

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Disematkan