浏览器跑大模型终于不用看云服务商脸色了,本地GPU直接起飞

ME News
llama.cpp正式支持WebGPU,浏览器端推理显存骤降超30%
llama.cpp 与 ggml 官方 WebGPU 后端正式发布,浏览器可本地 GPU 加速运行 GGUF 大模型,纯端侧、数据不出设备,实现零配置隐私推理。论文称静态内存规划与高效加载使网页端显存降幅达29–33%,跨英特尔、苹果、英伟达设备的解码吞吐提升45–69%。演示基于 wllama,底层优化超过论文预期。还可通过 Google C++ WebGPU Dawn 在本地编译,提供 Vulkan 与 WebGPU 的对比基准。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论