L'architecture PrfaaS est intéressante, les longues conversations non détectées sont routées vers un cluster de pré-remplissage indépendant, les requêtes courtes sont traitées localement par PD, la planification sensible à la bande passante évite la congestion inutile.

Voir l'original
MeNews
Le côté obscur de la lune et la nouvelle publication de Tsinghua : la pré-remplissage LLM peut traverser plusieurs centres de données, le débit du modèle de 1T augmente de 54 %
ME News rapporte que l'obscurité de la lune et Tsinghua ont proposé sur arXiv Prefill-as-a-Service, permettant l'exécution de la phase de pré-remplissage de l'inférence de grands modèles à travers plusieurs centres de données. En utilisant un modèle d'attention hybride, ils réduisent significativement le débit du cache KV, permettant au cache d'être transmis via Ethernet et renvoyé pour le décodage dans le cluster local. L'architecture PrfaaS construit un cluster de pré-remplissage indépendant, ne routant que les requêtes de longue portée non trouvées, tandis que les requêtes courtes restent sur le PD local ; elle introduit également un routage basé sur un seuil de longueur et une planification sensible à la bande passante. Les tests sur un modèle hybride de 1T paramètres montrent une augmentation du débit de 54 % par rapport à un PD homogène, et de 32 % par rapport à une approche hétérogène naïve.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé