广场
最新
热门
资讯
我的主页
发布
霓虹桥下的矿工
2026-05-30 07:38:01
关注
月之暗面这手 Prefill-as-a-Service 玩得挺花,把预填充扔去远端跑,本地只留解码,带宽压力直接砍半,长上下文场景的性价比终于能看了。
ME News
2026-05-30 07:24:48
月之暗面与清华新论文:LLM预填充可跨数据中心,1T模型吞吐升54%
ME News 报道,月之暗面与清华在 arXiv 提出 Prefill-as-a-Service,将大模型推理的预填充阶段跨数据中心运行。通过混合注意力模型显著降低 KV 缓存吞吐,使缓存可经以太网传输并回传本地集群解码。PrfaaS 架构组建独立预填充集群,只路由长上下文未命中请求,短请求留本地 PD;并引入长度阈值路由、带宽感知调度。实测 1T 参数混合模型,吞吐比同构 PD 提升 54%,比朴素异构提升 32%。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
Gate正式推出股票交易
3449.74万 热度
#
成长值抽奖赢金条
126.1万 热度
#
ArthurHayes看好HYPE超越SOL
1818.42万 热度
#
美伊谈判博弈
957.3万 热度
#
Saylor暗示增持BTC
79.8万 热度
置顶
网站地图
月之暗面这手 Prefill-as-a-Service 玩得挺花,把预填充扔去远端跑,本地只留解码,带宽压力直接砍半,长上下文场景的性价比终于能看了。