Браузер запускає великі моделі, нарешті більше не потрібно дивитись на настрій хмарних сервісів, локальний GPU прямо в дії

Переглянути оригінал
MeNews
llama.cpp офіційно підтримує WebGPU, обчислення в браузері зменшили використання відеопам’яті більш ніж на 30%
llama.cpp та офіційний бекенд ggml WebGPU були офіційно випущені, браузери можуть запускати GGUF великі моделі з локальним прискоренням GPU, повністю на стороні клієнта, без передачі даних, забезпечуючи нульконфігураційне приватне виведення. У статті стверджується, що статичне планування пам’яті та ефективне завантаження зменшують споживання відеопам’яті у веб-версії на 29–33%, а пропускна здатність декодування на пристроях Intel, Apple та NVIDIA зростає на 45–69%. Демонстрація на базі wllama, при цьому низькорівнева оптимізація перевищує очікування статті. Також можливо скомпілювати локально за допомогою Google C++ WebGPU Dawn, що надає порівняльні показники Vulkan та WebGPU.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено