Tsinghua + la face cachée de la lune, cette combinaison est intéressante, envoyez le pré-remplissage au centre de données distant, la chaîne de RDMA est enfin relâchée

Voir l'original
MeNews
Le côté obscur de la lune et la nouvelle publication de Tsinghua : la pré-remplissage LLM peut traverser plusieurs centres de données, avec un débit de modèle de 1T augmentant de 54 %
ME News 消息,4 月 18 日(UTC+8),据 动察 Beating 监测,月之暗面(Moonshot AI)与清华大学 4 月 16 日在 arXiv 挂出新论文《Prefill-as-a-Service》,提出让大模型推理的预填充阶段(prefill)跨数据中心运行。
大模型推理分两步:prefill 先把输入一次性读进来、生成一份 KV 缓存;decode 再根据这份缓存逐字吐出结果。
两步需要的硬件特性完全不同,prefill 吃算力,decode 吃显存带宽。
业界主流做法是把两步拆到不同机器上(PD 分离),但这要求两边在同一个数据中心里用 RDMA 互联,因为密集
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé