ME AI 消息，据动察 Beating 监测，搜索引擎巨头 Perplexity AI 正式开源生产环境使用的高性能推理基础设施工具包 pplx-garden。项目核心是自研的 Rust 高性能点对点通信库 fabric-lib （又称 TransferEngine），旨在打破英伟达独家专属通信协议的硬件绑定，帮助开发者在无需购买昂贵专属网络交换机的前提下，实现万亿参数大模型在异构多显卡集群上的极速运行。传统的分布式大模型推理极度依赖英伟达的专属高速通信网络，导致硬件部署成本极高且面临供应链锁死。 fabric-lib 实现了硬件层面的去绑定化，不仅完美适配 NVIDIA ConnectX-7 网卡，还原生支持亚马逊廉价的 AWS EFA 传统以太网卡，将多卡之间的网络带宽直接拉满至 400 Gbps 。针对 AWS EFA 乱序传输的物理缺陷， Perplexity 首创了 ImmCounter 计数器同步机制，在无需对数据包顺序做硬性假设的前提下，实现高效的「零拷贝」数据流转。通信库内置了专为混合专家模型 MoE 设计的数据分发算法，将显卡接收数据与矩阵计算深度重叠，极大地压榨了解码阶段的算力空间。在实际生产中， pplx-garden 带来的工程效益极为显著。在解耦推理架构中，网络库实现了 Prefill 节点与 Decoder 节点之间键值缓存的极速调度。在异步强化学习训练中，仅需 1.3 秒即可完成万亿参数级模型的权重同步与下发。为解决分词阶段的计算延迟， pplx-garden 配套开源了用 Rust 重构的 pplx-unigram 分词器，将 CPU 消耗直降 5 至 6 倍，消除了重排与向量模型在分词阶段的性能瓶颈。（来源：BlockBeats）

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

12人点赞了这条动态

赞赏
12
3
转发
分享

请输入评论内容

玻璃穹顶漫游

· 5小时前

pplx-unigram 降5-6倍CPU消耗，分词终于不是隐形瓶颈了，之前profile过才知道多离谱。

冰箱贴合约审计

· 5小时前

400Gbps 带宽看着爽，但 fabric-lib 去掉硬件绑定才是真的解放运维。

GateUser-3e7da866

· 5小时前

MoE 数据分发和计算重叠，硬件利用率拉满，这设计思路值得细读源码。

热门话题
查看更多
#
成长值抽奖赢金条
116.38万热度
#
24h加密合约清算破4亿美元
14984.66万热度
#
股票交易挑战最高赢17000U
14.16万热度
#
美军对伊朗发动新打击
938.45万热度
#
交易CFD送黄金
311.42万热度

Perplexity开源推理底座pplx-garden，绕过英伟达网络税实现多卡极速通信

热门话题

成长值抽奖赢金条

24h加密合约清算破4亿美元

股票交易挑战最高赢17000U

美军对伊朗发动新打击

交易CFD送黄金

置顶