Тяньцзинь + Лунный темный бок — эта волна разделила предварительную заполнение, кэш KV можно держать на Ethereum, и это всё выдержит, увеличение пропускной способности на 54% действительно приятно, структура затрат на длинное контекстное рассуждение скоро изменится

Посмотреть Оригинал
MeNews
Тёмная сторона Луны и новая статья Тяньцзиньского университета: Предварительная подготовка LLM может осуществляться между дата-центрами, пропускная способность модели на 1Т увеличилась на 54%
ME News сообщает, что月之暗面与清华在 arXiv 提出 Prefill-as-a-Service,将大模型推理的预填充阶段跨数据中心运行。通过混合注意力模型显著降低 KV 缓存吞吐,使缓存可经以太网传输并回传本地集群解码。PrfaaS 架构组建独立预填充集群,只路由长上下文未命中请求,短请求留本地 PD;并引入长度阈值路由、带宽感知调度。实测 1T 参数混合模型,吞吐比同构 PD 提升 54%,比朴素异构提升 32%。
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено