L'aspect obscur de la lune, cette manœuvre Prefill-as-a-Service est assez sophistiquée, en envoyant la pré-remplissage à l'exécution distante, ne conservant que le décodage local, ce qui réduit directement la pression sur la bande passante, permettant enfin d'évaluer le rapport coût-efficacité dans les scénarios de contexte long.

Voir l'original
MeNews
Le côté obscur de la lune et la nouvelle publication de Tsinghua : la pré-remplissage LLM peut traverser plusieurs centres de données, le débit du modèle de 1T augmente de 54 %
ME News rapporte que l'obscurité de la lune et Tsinghua ont proposé sur arXiv Prefill-as-a-Service, permettant l'exécution de la phase de pré-remplissage de l'inférence de grands modèles à travers plusieurs centres de données. En utilisant un modèle d'attention hybride, ils réduisent significativement le débit du cache KV, permettant au cache d'être transmis via Ethernet et renvoyé pour le décodage dans le cluster local. L'architecture PrfaaS construit un cluster de pré-remplissage indépendant, ne routant que les requêtes de longue portée non trouvées, tandis que les requêtes courtes restent sur le PD local ; elle introduit également un routage basé sur un seuil de longueur et une planification sensible à la bande passante. Les tests sur un modèle hybride de 1T paramètres montrent une augmentation de 54 % du débit par rapport à un PD homogène, et une amélioration de 32 % par rapport à une approche hétérogène naïve.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé