Perplexity开源推理底座pplx-garden,绕过英伟达网络税实现多卡极速通信

robot
摘要生成中
ME AI 消息,据 动察 Beating 监测,搜索引擎巨头 Perplexity AI 正式开源生产环境使用的高性能推理基础设施工具包 pplx-garden。项目核心是自研的 Rust 高性能点对点通信库 fabric-lib (又称 TransferEngine),旨在打破英伟达独家专属通信协议的硬件绑定,帮助开发者在无需购买昂贵专属网络交换机的前提下,实现万亿参数大模型在异构多显卡集群上的极速运行。 传统的分布式大模型推理极度依赖英伟达的专属高速通信网络,导致硬件部署成本极高且面临供应链锁死。 fabric-lib 实现了硬件层面的去绑定化,不仅完美适配 NVIDIA ConnectX-7 网卡,还原生支持亚马逊廉价的 AWS EFA 传统以太网卡,将多卡之间的网络带宽直接拉满至 400 Gbps 。针对 AWS EFA 乱序传输的物理缺陷, Perplexity 首创了 ImmCounter 计数器同步机制,在无需对数据包顺序做硬性假设的前提下,实现高效的「零拷贝」数据流转。通信库内置了专为混合专家模型 MoE 设计的数据分发算法,将显卡接收数据与矩阵计算深度重叠,极大地压榨了解码阶段的算力空间。 在实际生产中, pplx-garden 带来的工程效益极为显著。在解耦推理架构中,网络库实现了 Prefill 节点与 Decoder 节点之间键值缓存的极速调度。在异步强化学习训练中,仅需 1.3 秒即可完成万亿参数级模型的权重同步与下发。为解决分词阶段的计算延迟, pplx-garden 配套开源了用 Rust 重构的 pplx-unigram 分词器,将 CPU 消耗直降 5 至 6 倍,消除了重排与向量模型在分词阶段的性能瓶颈。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 3
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
玻璃穹顶漫游
· 5小时前
pplx-unigram 降5-6倍CPU消耗,分词终于不是隐形瓶颈了,之前profile过才知道多离谱。
回复0
冰箱贴合约审计
· 5小时前
400Gbps 带宽看着爽,但 fabric-lib 去掉硬件绑定才是真的解放运维。
回复0
GateUser-3e7da866
· 5小时前
MoE 数据分发和计算重叠,硬件利用率拉满,这设计思路值得细读源码。
回复0