ME AI Message, selon la surveillance Beating, le géant des moteurs de recherche Perplexity AI a officiellement open source l'outil d'infrastructure d'inférence haute performance utilisé en production, le paquet pplx-garden. Le cœur du projet est la bibliothèque de communication point à point haute performance développée en interne en Rust, fabric-lib (également appelée TransferEngine), visant à briser la liaison matérielle exclusive du protocole de communication propriétaire de NVIDIA, aidant ainsi les développeurs à réaliser une exécution ultra-rapide de modèles de milliards de paramètres sur des clusters multi-GPU hétérogènes, sans avoir à acheter des commutateurs réseau coûteux et exclusifs.
L'inférence de grands modèles distribués traditionnels dépend énormément du réseau de communication haute vitesse exclusif de NVIDIA, ce qui entraîne des coûts de déploiement matériels très élevés et une dépendance à la chaîne d'approvisionnement.
fabric-lib réalise une désolidarisation au niveau matériel, s'adaptant parfaitement aux cartes réseau NVIDIA ConnectX-7, tout en supportant nativement les cartes Ethernet traditionnelles AWS EFA, bon marché, d'Amazon, permettant d'atteindre une bande passante réseau entre plusieurs cartes jusqu'à 400 Gbps.
Pour pallier les défauts physiques de transmission désordonnée de l'AWS EFA, Perplexity a innové avec le mécanisme de synchronisation de compteur ImmCounter, permettant, sans faire d'hypothèses strictes sur l'ordre des paquets, une circulation de données efficace en « zéro copie ».
La bibliothèque de communication intègre un algorithme de distribution de données spécialement conçu pour le modèle expert hybride MoE, superposant profondément la réception de données par la carte graphique et le calcul matriciel, maximisant ainsi la puissance de calcul lors de la phase de décodage.
En production réelle, pplx-garden apporte des bénéfices d'ingénierie très significatifs.
Dans une architecture de déconnexion de l'inférence, la bibliothèque réseau permet une planification ultra-rapide du cache clé-valeur entre les nœuds Prefill et Decoder.
Dans l'entraînement par apprentissage renforcé asynchrone, il ne faut que 1,3 seconde pour synchroniser et distribuer les poids d'un modèle de milliards de paramètres.
Pour réduire la latence de calcul lors de la phase de segmentation, pplx-garden a open source un tokenizer pplx-unigram réécrit en Rust, réduisant la consommation CPU de 5 à 6 fois, éliminant ainsi le goulot d'étranglement de performance entre le réarrangement et le modèle vectoriel lors de la segmentation.
(Source : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

12 J'aime

Récompense
12
3
Reposter
Partager

Commentaire

Ajouter un commentaire

GlassDomeRoaming

· Il y a 5h

pplx-unigram réduit la consommation CPU de 5 à 6 fois, la segmentation n'est enfin plus un goulot d'étranglement invisible, je l'ai découvert en profilant auparavant à quel point c'était aberrant.

Voir l'originalRépondre0

RefrigeratorMagnetContract

· Il y a 5h

Une bande passante de 400 Gbps semble impressionnante, mais fabric-lib sans liaison matérielle est la véritable libération pour la maintenance.

Voir l'originalRépondre0

GateUser-3e7da866

· Il y a 5h

La distribution des données MoE et le chevauchement du calcul, l'utilisation du matériel est maximisée, cette approche de conception mérite une lecture attentive du code source.

Voir l'originalRépondre0

Sujets populaires
Afficher plus
#
WinGoldBarsWithGrowthPoints
1.16M Popularité
#
IsraelStrikesIranBTCPlunges
50.52K Popularité
#
StockTradingChallengeUpTo17000U
141.6K Popularité
#
USLaunchesNewStrikesOnIranOilRebounds
9.38M Popularité
#
2gGoldEvery10Minutes
3.11M Popularité

Épinglé

Perplexity plateforme d'inférence open source pplx-garden, contourner la taxe réseau de Nvidia pour une communication multi-cartes ultra-rapide

Sujets populaires

WinGoldBarsWithGrowthPoints

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USLaunchesNewStrikesOnIranOilRebounds

2gGoldEvery10Minutes

Épinglé