llama.cpp офіційно підтримує WebGPU, обчислення в браузері зменшили використання відеопам’яті більш ніж на 30%

robot
Генерація анотацій у процесі
ME AI Повідомлення, згідно з моніторингом Beating, офіційно випущено бекенд WebGPU для llama.cpp та ggml, який підтримує безпосереднє прискорення роботи великих моделей у форматі GGUF через локальний GPU у браузері. Новий бекенд позбавлений залежності від конкретних нативних клієнтів або складних архітектур WebAssembly, реалізуючи чисту сторону, приватне обчислення без виходу даних за межі пристрою, що відкриває нульконфігураційний локальний обчислювальний вхід для веб-екосистеми. У статті, опублікованій 20 травня, зазначається, що бекенд WebGPU вводить статичне планування пам’яті та ефективний механізм завантаження моделей, що зменшує витрати пам’яті на графічному прискорювачі під час роботи у браузері на 29% до 33%. На основних GPU-устройствах, таких як Intel, Apple і NVIDIA, пропускна здатність декодування в середньому зросла на 45% до 69%. Демонстрація у браузері базується на відкритій бібліотеці wllama, а недавні низькорівневі оптимізації забезпечили ще кращий контроль пам’яті, ніж у статті. llama.cpp також може бути компільований нативно за допомогою Dawn через C++ реалізацію Google WebGPU, що дає змогу порівнювати низькорівневу продуктивність Vulkan і WebGPU. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 10
  • 2
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
UnderTheGlassDome
· 5год тому
ggml цю адаптацію WebGPU зроблено дуже детально, зниження використання відеопам’яті на 29% — це круто
Переглянути оригіналвідповісти на0
StargazerInTheWoods
· 6год тому
Чи є підтримка Safari найбільшим бар'єром для поширення WebGPU?
Переглянути оригіналвідповісти на0
MountainBeforeTheStorm
· 6год тому
Чисте локальне виведення означає, що моя історія чатів нарешті більше не потрібна для завантаження в хмару
Переглянути оригіналвідповісти на0
OwlMarketMonitoringLamp
· 7год тому
Нарешті можна запускати локальні великі моделі у браузері, прихильники приватності радіють
Переглянути оригіналвідповісти на0
BridgeHopRanger
· 7год тому
В майбутньому Chrome стане моїм AI IDE.
Переглянути оригіналвідповісти на0
APuppyInTheWarmSun
· 7год тому
45-69% підвищення пропускної здатності, якість досвіду на веб-сторінці має кардинально змінитися
Переглянути оригіналвідповісти на0
LpGrandma
· 7год тому
GGUF формат + WebGPU, екосистема llama.cpp стає все більш повною
Переглянути оригіналвідповісти на0
AirdropArchivist
· 7год тому
Цей ритм публікацій, команда llama.cpp дійсно не спить.
Переглянути оригіналвідповісти на0
RetroRadioEcho
· 7год тому
Статичне планування пам’яті — ця технічна назва звучить так, ніби економить відеопам’ять
Переглянути оригіналвідповісти на0
ReboundAtTheStreetCornerAfter
· 7год тому
Dawn компілює цей шлях, залишаючи бекдор для хардкорних гравців, хороша оцінка
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріплено