ME AI Pesan, berdasarkan pemantauan Beating, mesin pencari raksasa Perplexity AI resmi merilis toolkit infrastruktur inferensi berkinerja tinggi yang digunakan di lingkungan produksi, yaitu pplx-garden. Proyek inti adalah perpustakaan komunikasi titik ke titik berkinerja tinggi buatan sendiri berbasis Rust, fabric-lib (juga dikenal sebagai TransferEngine), yang bertujuan untuk memutus ikatan perangkat keras dari protokol komunikasi eksklusif NVIDIA, membantu pengembang menjalankan model besar dengan triliunan parameter secara cepat di klaster multi-GPU heterogen tanpa perlu membeli switch jaringan eksklusif yang mahal. Inferensi model besar terdistribusi secara tradisional sangat bergantung pada jaringan komunikasi cepat eksklusif NVIDIA, yang menyebabkan biaya perangkat keras sangat tinggi dan menghadapi ketergantungan rantai pasokan. fabric-lib mewujudkan desentralisasi ikatan perangkat keras, tidak hanya cocok secara sempurna dengan kartu jaringan NVIDIA ConnectX-7, tetapi juga mendukung secara native kartu jaringan Ethernet tradisional AWS EFA yang murah, sehingga bandwidth jaringan antar GPU langsung mencapai 400 Gbps. Untuk mengatasi kekurangan fisik transmisi urutan acak AWS EFA, Perplexity menciptakan mekanisme sinkronisasi penghitung ImmCounter, yang memungkinkan aliran data "tanpa salinan" yang efisien tanpa asumsi ketat tentang urutan paket. Perpustakaan komunikasi ini dilengkapi algoritma distribusi data yang dirancang khusus untuk model ahli campuran MoE, yang menyeimbangkan penerimaan data GPU dengan perhitungan matriks secara mendalam, secara signifikan meningkatkan kapasitas komputasi tahap decoding. Dalam praktik produksi, pplx-garden memberikan manfaat rekayasa yang sangat signifikan. Dalam arsitektur inferensi yang terlepas, perpustakaan jaringan mencapai penjadwalan cache kunci-nilai yang sangat cepat antara node Prefill dan node Decoder. Dalam pelatihan pembelajaran penguatan asinkron, hanya membutuhkan 1,3 detik untuk menyelesaikan sinkronisasi dan distribusi bobot model dengan triliunan parameter. Untuk mengatasi latensi komputasi pada tahap tokenisasi, pplx-garden merilis tokenizer pplx-unigram yang dibangun ulang dengan Rust, yang secara langsung menurunkan konsumsi CPU sebanyak 5 hingga 6 kali, menghilangkan bottleneck kinerja pada tahap tokenisasi yang disebabkan oleh reordering dan model vektor. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

12 Suka

Hadiah
12
3
Posting ulang
Bagikan

Komentar

Tambahkan komentar

GlassDomeRoaming

· 3jam yang lalu

pplx-unigram mengurangi konsumsi CPU sebesar 5-6 kali, pemisahan kata akhirnya bukan lagi hambatan tersembunyi, sebelumnya sudah diprofiling dan baru tahu betapa tidak masuk akal.

Lihat AsliBalas0

RefrigeratorMagnetContract

· 3jam yang lalu

400Gbps bandwidth terlihat keren, tetapi fabric-lib menghapus keterikatan perangkat keras adalah pembebasan operasional yang sebenarnya.

Lihat AsliBalas0

GateUser-3e7da866

· 3jam yang lalu

Distribusi data MoE dan tumpang tindih perhitungan, pemanfaatan perangkat keras mencapai puncaknya, ide desain ini layak untuk mempelajari kode sumbernya secara mendalam.

Lihat AsliBalas0

Topik Trending
Lihat Lebih Banyak
#
WinGoldBarsWithGrowthPoints
1.16M Popularitas
#
IsraelStrikesIranBTCPlunges
50.48K Popularitas
#
StockTradingChallengeUpTo17000U
141.69K Popularitas
#
USLaunchesNewStrikesOnIranOilRebounds
9.32M Popularitas
#
2gGoldEvery10Minutes
3.11M Popularitas

Disematkan

peta situs

Perplexity dasar inferensi sumber terbuka pplx-garden, melewati pajak jaringan Nvidia untuk komunikasi multi-kartu yang sangat cepat

Topik Trending

WinGoldBarsWithGrowthPoints

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USLaunchesNewStrikesOnIranOilRebounds

2gGoldEvery10Minutes

Disematkan