Tsinghua + Moon's Dark Side this time has separated the pre-filling process, KV cache can handle Ethernet, and a 54% throughput increase is indeed impressive, the cost structure for long-context reasoning is about to change.

Voir l'original
MeNews
La face cachée de la lune et la nouvelle publication de Tsinghua : la pré-remplissage LLM peut traverser plusieurs centres de données, le débit du modèle de 1T augmente de 54 %
ME News rapporte que l'obscurité de la lune et Tsinghua ont proposé sur arXiv Prefill-as-a-Service, permettant l'exécution de la phase de pré-remplissage de l'inférence de grands modèles à travers plusieurs centres de données. En utilisant un modèle d'attention hybride, ils réduisent significativement le débit du cache KV, permettant au cache d'être transmis via Ethernet et renvoyé au cluster local pour le décodage. L'architecture PrfaaS construit un cluster de pré-remplissage indépendant, ne routant que les requêtes de longue portée non trouvées, tandis que les requêtes courtes restent sur le PD local ; elle introduit également un routage basé sur un seuil de longueur et une planification sensible à la bande passante. Les tests sur un modèle hybride de 1T paramètres montrent une augmentation de 54 % du débit par rapport à un PD homogène, et une amélioration de 32 % par rapport à une approche hétérogène naïve.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé