Perplexity plateforme d'inférence open source pplx-garden, contourner la taxe réseau de Nvidia pour une communication multi-cartes ultra-rapide

robot
Création du résumé en cours
ME AI Message, selon la surveillance Beating, le géant des moteurs de recherche Perplexity AI a officiellement open source l'outil d'infrastructure d'inférence haute performance utilisé en production, le paquet pplx-garden. Le cœur du projet est la bibliothèque de communication point à point haute performance développée en interne en Rust, fabric-lib (également appelée TransferEngine), visant à briser la liaison matérielle exclusive du protocole de communication propriétaire de NVIDIA, aidant ainsi les développeurs à réaliser une exécution ultra-rapide de modèles de milliards de paramètres sur des clusters multi-GPU hétérogènes, sans avoir à acheter des commutateurs réseau coûteux et exclusifs.
L'inférence de grands modèles distribués traditionnels dépend énormément du réseau de communication haute vitesse exclusif de NVIDIA, ce qui entraîne des coûts de déploiement matériels très élevés et une dépendance à la chaîne d'approvisionnement.
fabric-lib réalise une désolidarisation au niveau matériel, s'adaptant parfaitement aux cartes réseau NVIDIA ConnectX-7, tout en supportant nativement les cartes Ethernet traditionnelles AWS EFA, bon marché, d'Amazon, permettant d'atteindre une bande passante réseau entre plusieurs cartes jusqu'à 400 Gbps.
Pour pallier les défauts physiques de transmission désordonnée de l'AWS EFA, Perplexity a innové avec le mécanisme de synchronisation de compteur ImmCounter, permettant, sans faire d'hypothèses strictes sur l'ordre des paquets, une circulation de données efficace en « zéro copie ».
La bibliothèque de communication intègre un algorithme de distribution de données spécialement conçu pour le modèle expert hybride MoE, superposant profondément la réception de données par la carte graphique et le calcul matriciel, maximisant ainsi la puissance de calcul lors de la phase de décodage.
En production réelle, pplx-garden apporte des bénéfices d'ingénierie très significatifs.
Dans une architecture de déconnexion de l'inférence, la bibliothèque réseau permet une planification ultra-rapide du cache clé-valeur entre les nœuds Prefill et Decoder.
Dans l'entraînement par apprentissage renforcé asynchrone, il ne faut que 1,3 seconde pour synchroniser et distribuer les poids d'un modèle de milliards de paramètres.
Pour réduire la latence de calcul lors de la phase de segmentation, pplx-garden a open source un tokenizer pplx-unigram réécrit en Rust, réduisant la consommation CPU de 5 à 6 fois, éliminant ainsi le goulot d'étranglement de performance entre le réarrangement et le modèle vectoriel lors de la segmentation.
(Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 3
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
GlassDomeRoaming
· Il y a 5h
pplx-unigram réduit la consommation CPU de 5 à 6 fois, la segmentation n'est enfin plus un goulot d'étranglement invisible, je l'ai découvert en profilant auparavant à quel point c'était aberrant.
Voir l'originalRépondre0
RefrigeratorMagnetContract
· Il y a 5h
Une bande passante de 400 Gbps semble impressionnante, mais fabric-lib sans liaison matérielle est la véritable libération pour la maintenance.
Voir l'originalRépondre0
GateUser-3e7da866
· Il y a 5h
La distribution des données MoE et le chevauchement du calcul, l'utilisation du matériel est maximisée, cette approche de conception mérite une lecture attentive du code source.
Voir l'originalRépondre0
  • Épinglé