llama.cpp正式支持WebGPU,浏览器端推理显存骤降超30%

robot
摘要生成中
ME AI 消息,据 动察 Beating 监测,llama.cpp 与 ggml 官方 WebGPU 后端正式发布,支持在浏览器中直接通过本地 GPU 加速运行 GGUF 格式大模型。新后端摆脱了对特定原生客户端或复杂 WebAssembly 架构的依赖,实现纯端侧、数据不出设备的隐私推理,为网页生态打通了零配置的本地算力入口。 5 月 20 日发表的相关论文指出,WebGPU 后端引入静态内存规划与高效模型加载机制,网页端运行时的显存开销相较现有框架降低 29% 至 33%。在英特尔、苹果和英伟达等主流 GPU 设备上,解码吞吐量平均提升 45% 至 69%。 网页端演示基于开源库 wllama 运行,近期完成的底层优化实现了比论文更优的显存控制。llama.cpp 还可以通过 Google 的 C++ WebGPU 实现 Dawn 进行本地原生编译,为 Vulkan 与 WebGPU 之间的底层性能对比提供了评测基准。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 10
  • 2
  • 分享
评论
请输入评论内容
请输入评论内容
玻璃穹顶下
· 5小时前
ggml这波WebGPU适配做得真细,29%显存降幅够意思
回复0
林间观星者
· 6小时前
WebGPU普及的最大障碍是Safari支持吗?
回复0
风暴前的山
· 6小时前
纯端侧推理意味着我的聊天记录终于不用上云了
回复0
猫头鹰盯盘灯
· 7小时前
终于能在浏览器里跑本地大模型了,隐私党狂喜
回复0
BridgeHopRanger
· 7小时前
以后Chrome就是我的AI IDE了
回复0
暖阳下的小狗
· 7小时前
45-69%吞吐提升,网页端体验要质变
回复0
LP Grandma
· 7小时前
GGUF格式+WebGPU,llama.cpp生态越来越完整
回复0
Airdrop Archivist
· 7小时前
这发布节奏,llama.cpp团队是真不睡啊
回复0
复古收音机回声
· 7小时前
静态内存规划这技术名词听着就省显存
回复0
雨后街角的反弹
· 7小时前
Dawn编译这条路给硬核玩家留后门,好评
回复0
查看更多