llama.cpp та офіційний бекенд ggml WebGPU були офіційно випущені, браузери можуть запускати GGUF великі моделі з локальним прискоренням GPU, повністю на стороні клієнта, без передачі даних, забезпечуючи нульконфігураційне приватне виведення. У статті стверджується, що статичне планування пам’яті та ефективне завантаження зменшують споживання відеопам’яті у веб-версії на 29–33%, а пропускна здатність декодування на пристроях Intel, Apple та NVIDIA зростає на 45–69%. Демонстрація на базі wllama, при цьому низькорівнева оптимізація перевищує очікування статті. Також можливо скомпілювати локально за допомогою Google C++ WebGPU Dawn, що надає порівняльні показники Vulkan та WebGPU.

MeNews

2026-05-22 13:03:46

Генерація анотацій у процесі

ME AI Повідомлення, згідно з моніторингом Beating, офіційно випущено бекенд WebGPU для llama.cpp та ggml, який підтримує безпосереднє прискорення роботи великих моделей у форматі GGUF через локальний GPU у браузері. Новий бекенд позбавлений залежності від конкретних нативних клієнтів або складних архітектур WebAssembly, реалізуючи чисту сторону, приватне обчислення без виходу даних за межі пристрою, що відкриває нульконфігураційний локальний обчислювальний вхід для веб-екосистеми. У статті, опублікованій 20 травня, зазначається, що бекенд WebGPU вводить статичне планування пам’яті та ефективний механізм завантаження моделей, що зменшує витрати пам’яті на графічному прискорювачі під час роботи у браузері на 29% до 33%. На основних GPU-устройствах, таких як Intel, Apple і NVIDIA, пропускна здатність декодування в середньому зросла на 45% до 69%. Демонстрація у браузері базується на відкритій бібліотеці wllama, а недавні низькорівневі оптимізації забезпечили ще кращий контроль пам’яті, ніж у статті. llama.cpp також може бути компільований нативно за допомогою Dawn через C++ реалізацію Google WebGPU, що дає змогу порівнювати низькорівневу продуктивність Vulkan і WebGPU. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

13 лайків

Нагородити
13
10
2
Поділіться

Прокоментувати

Додати коментар

UnderTheGlassDome

· 5год тому

ggml цю адаптацію WebGPU зроблено дуже детально, зниження використання відеопам’яті на 29% — це круто