Le côté obscur de la lune a cette fois déployé le pré-remplissage sur un site distant,


Le cache KV peut supporter le réseau Ethereum,
Le débit du modèle 1T a directement explosé de 54 %,
La gestion hétérogène a été maîtrisée.
Voir l'original
MeNews
Le côté obscur de la lune et la nouvelle publication de Tsinghua : la pré-remplissage LLM peut traverser plusieurs centres de données, le débit du modèle de 1T augmente de 54 %
ME News rapporte que l'obscurité de la lune et Tsinghua ont proposé sur arXiv Prefill-as-a-Service, permettant l'exécution du pré-remplissage de la modélisation à grande échelle lors de l'inférence à travers plusieurs centres de données. En utilisant un modèle d'attention hybride, ils réduisent significativement le débit du cache KV, permettant au cache d'être transmis via Ethernet et renvoyé pour le décodage dans le cluster local. L'architecture PrfaaS construit un cluster de pré-remplissage indépendant, ne routant que les requêtes de longue portée non trouvées, tandis que les requêtes courtes restent dans le PD local ; elle introduit également un routage basé sur un seuil de longueur et une planification sensible à la bande passante. Les tests avec un modèle hybride de 1T paramètres montrent une augmentation de 54 % du débit par rapport à un PD homogène, et une amélioration de 32 % par rapport à une approche hétérogène naïve.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé