PrfaaS эта архитектура интересна, при длинном контексте, который не совпадает, маршрутизирует к отдельному предварительно заполненному кластеру, короткие запросы обслуживаются локальным PD, а чувствительное к пропускной способности распределение помогает избежать беспорядочного сжатия.

Посмотреть Оригинал
MeNews
Тёмная сторона Луны и новая статья Тяньцзиньского университета: Предварительная подготовка LLM может осуществляться между дата-центрами, пропускная способность модели на 1Т увеличилась на 54%
ME News сообщает, что月之暗面与清华在 arXiv 提出了 Prefill-as-a-Service,将大模型推理的预填充阶段跨数据中心运行。
通过混合注意力模型显著降低 KV 缓存吞吐,使缓存可经以太网传输并回传本地集群解码。
PrfaaS 架构组建独立预填充集群,只路由长上下文未命中请求,短请求留本地 PD;并引入长度阈值路由、带宽感知调度。
实测 1T 参数混合模型,吞吐比同构 PD 提升 54%,比朴素异构提升 32%。
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено