llama.cpp 与 ggml 官方 WebGPU 后端正式发布，浏览器可本地 GPU 加速运行 GGUF 大模型，纯端侧、数据不出设备，实现零配置隐私推理。论文称静态内存规划与高效加载使网页端显存降幅达29–33%，跨英特尔、苹果、英伟达设备的解码吞吐提升45–69%。演示基于 wllama，底层优化超过论文预期。还可通过 Google C++ WebGPU Dawn 在本地编译，提供 Vulkan 与 WebGPU 的对比基准。

ME News

2026-05-22 13:03:46

摘要生成中

ME AI 消息，据动察 Beating 监测，llama.cpp 与 ggml 官方 WebGPU 后端正式发布，支持在浏览器中直接通过本地 GPU 加速运行 GGUF 格式大模型。新后端摆脱了对特定原生客户端或复杂 WebAssembly 架构的依赖，实现纯端侧、数据不出设备的隐私推理，为网页生态打通了零配置的本地算力入口。 5 月 20 日发表的相关论文指出，WebGPU 后端引入静态内存规划与高效模型加载机制，网页端运行时的显存开销相较现有框架降低 29% 至 33%。在英特尔、苹果和英伟达等主流 GPU 设备上，解码吞吐量平均提升 45% 至 69%。网页端演示基于开源库 wllama 运行，近期完成的底层优化实现了比论文更优的显存控制。llama.cpp 还可以通过 Google 的 C++ WebGPU 实现 Dawn 进行本地原生编译，为 Vulkan 与 WebGPU 之间的底层性能对比提供了评测基准。（来源：BlockBeats）

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

13人点赞了这条动态

赞赏
13
10
2
分享

请输入评论内容

玻璃穹顶下

· 5小时前

ggml这波WebGPU适配做得真细，29%显存降幅够意思

林间观星者

· 6小时前

WebGPU普及的最大障碍是Safari支持吗？

风暴前的山

· 6小时前

纯端侧推理意味着我的聊天记录终于不用上云了

猫头鹰盯盘灯

· 7小时前

终于能在浏览器里跑本地大模型了，隐私党狂喜

BridgeHopRanger

· 7小时前

以后Chrome就是我的AI IDE了

暖阳下的小狗

· 7小时前

45-69%吞吐提升，网页端体验要质变

LP Grandma

· 7小时前

GGUF格式+WebGPU，llama.cpp生态越来越完整

Airdrop Archivist

· 7小时前

这发布节奏，llama.cpp团队是真不睡啊

复古收音机回声

· 7小时前

静态内存规划这技术名词听着就省显存

雨后街角的反弹

· 7小时前

Dawn编译这条路给硬核玩家留后门，好评

热门话题
查看更多
#
TradFi交易分享挑战
26.88万热度
#
PlatinumCard作者专属
7.96万热度
#
Polymarket每日热点
103.67万热度
#
特朗普称美伊正敲定协议细节
2109.49万热度
#
Gate广场披萨节
60.99万热度

llama.cpp正式支持WebGPU，浏览器端推理显存骤降超30%

热门话题

TradFi交易分享挑战

PlatinumCard作者专属

Polymarket每日热点

特朗普称美伊正敲定协议细节

Gate广场披萨节

置顶