Perplexity dasar inferensi sumber terbuka pplx-garden, melewati pajak jaringan Nvidia untuk komunikasi multi-kartu yang sangat cepat

robot
Pembuatan abstrak sedang berlangsung
ME AI Pesan, berdasarkan pemantauan Beating, mesin pencari raksasa Perplexity AI resmi merilis toolkit infrastruktur inferensi berkinerja tinggi yang digunakan di lingkungan produksi, yaitu pplx-garden. Proyek inti adalah perpustakaan komunikasi titik ke titik berkinerja tinggi buatan sendiri berbasis Rust, fabric-lib (juga dikenal sebagai TransferEngine), yang bertujuan untuk memutus ikatan perangkat keras dari protokol komunikasi eksklusif NVIDIA, membantu pengembang menjalankan model besar dengan triliunan parameter secara cepat di klaster multi-GPU heterogen tanpa perlu membeli switch jaringan eksklusif yang mahal. Inferensi model besar terdistribusi secara tradisional sangat bergantung pada jaringan komunikasi cepat eksklusif NVIDIA, yang menyebabkan biaya perangkat keras sangat tinggi dan menghadapi ketergantungan rantai pasokan. fabric-lib mewujudkan desentralisasi ikatan perangkat keras, tidak hanya cocok secara sempurna dengan kartu jaringan NVIDIA ConnectX-7, tetapi juga mendukung secara native kartu jaringan Ethernet tradisional AWS EFA yang murah, sehingga bandwidth jaringan antar GPU langsung mencapai 400 Gbps. Untuk mengatasi kekurangan fisik transmisi urutan acak AWS EFA, Perplexity menciptakan mekanisme sinkronisasi penghitung ImmCounter, yang memungkinkan aliran data "tanpa salinan" yang efisien tanpa asumsi ketat tentang urutan paket. Perpustakaan komunikasi ini dilengkapi algoritma distribusi data yang dirancang khusus untuk model ahli campuran MoE, yang menyeimbangkan penerimaan data GPU dengan perhitungan matriks secara mendalam, secara signifikan meningkatkan kapasitas komputasi tahap decoding. Dalam praktik produksi, pplx-garden memberikan manfaat rekayasa yang sangat signifikan. Dalam arsitektur inferensi yang terlepas, perpustakaan jaringan mencapai penjadwalan cache kunci-nilai yang sangat cepat antara node Prefill dan node Decoder. Dalam pelatihan pembelajaran penguatan asinkron, hanya membutuhkan 1,3 detik untuk menyelesaikan sinkronisasi dan distribusi bobot model dengan triliunan parameter. Untuk mengatasi latensi komputasi pada tahap tokenisasi, pplx-garden merilis tokenizer pplx-unigram yang dibangun ulang dengan Rust, yang secara langsung menurunkan konsumsi CPU sebanyak 5 hingga 6 kali, menghilangkan bottleneck kinerja pada tahap tokenisasi yang disebabkan oleh reordering dan model vektor. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 3
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
GlassDomeRoaming
· 3jam yang lalu
pplx-unigram mengurangi konsumsi CPU sebesar 5-6 kali, pemisahan kata akhirnya bukan lagi hambatan tersembunyi, sebelumnya sudah diprofiling dan baru tahu betapa tidak masuk akal.
Lihat AsliBalas0
RefrigeratorMagnetContract
· 3jam yang lalu
400Gbps bandwidth terlihat keren, tetapi fabric-lib menghapus keterikatan perangkat keras adalah pembebasan operasional yang sebenarnya.
Lihat AsliBalas0
GateUser-3e7da866
· 3jam yang lalu
Distribusi data MoE dan tumpang tindih perhitungan, pemanfaatan perangkat keras mencapai puncaknya, ide desain ini layak untuk mempelajari kode sumbernya secara mendalam.
Lihat AsliBalas0
  • Disematkan