llama.cpp официально поддерживает WebGPU, объем видеопамяти для вывода на стороне браузера снизился более чем на 30%

robot
Генерация тезисов в процессе
ME AI Сообщение, согласно мониторингу 动察 Beating, официально выпущены llama.cpp и ggml для WebGPU, поддерживающие прямое ускорение работы больших моделей в формате GGUF через локальный GPU в браузере. Новый бэкенд избавился от зависимости от конкретных нативных клиентов или сложных архитектур WebAssembly, реализуя чисто клиентскую, не выходящую за пределы устройства приватную инференцию, что открывает нулевую конфигурацию локального вычислительного входа для веб-экосистемы. В статье, опубликованной 20 мая, указано, что бэкенд WebGPU внедряет статическое планирование памяти и эффективные механизмы загрузки моделей, что снижает расход видеопамяти во время работы в браузере на 29% до 33% по сравнению с существующими фреймворками. На основных GPU-устройствах, таких как Intel, Apple и Nvidia, средний прирост пропускной способности декодирования составляет от 45% до 69%. Демонстрация в браузере основана на открытой библиотеке wllama, а недавно реализованные низкоуровневые оптимизации обеспечили еще более эффективное управление видеопамятью, чем в статье. llama.cpp также может быть скомпилирован нативно с помощью Dawn, реализованного на C++ WebGPU от Google, что предоставляет базу для сравнения производительности между Vulkan и WebGPU. (Источник:BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 10
  • 2
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
UnderTheGlassDome
· 6ч назад
ggml эта адаптация под WebGPU выполнена очень тщательно, снижение использования видеопамяти на 29% — достойно внимания
Посмотреть ОригиналОтветить0
StargazerInTheWoods
· 7ч назад
Является ли поддержка Safari крупнейшим препятствием для популяризации WebGPU?
Посмотреть ОригиналОтветить0
MountainBeforeTheStorm
· 7ч назад
Чисто локальное выполнение выводов означает, что моя история чатов наконец-то не нужно загружать в облако
Посмотреть ОригиналОтветить0
OwlMarketMonitoringLamp
· 8ч назад
Наконец-то можно запускать локальные большие модели прямо в браузере, и сторонники конфиденциальности ликуют.
Посмотреть ОригиналОтветить0
BridgeHopRanger
· 8ч назад
В будущем Chrome станет моим AI-IDE.
Посмотреть ОригиналОтветить0
APuppyInTheWarmSun
· 8ч назад
45-69% увеличение пропускной способности, качество веб-опыта должно кардинально измениться
Посмотреть ОригиналОтветить0
LpGrandma
· 8ч назад
GGUF формат + WebGPU, экосистема llama.cpp становится всё более полной
Посмотреть ОригиналОтветить0
AirdropArchivist
· 8ч назад
Этот ритм публикаций, команда llama.cpp действительно не спит.
Посмотреть ОригиналОтветить0
RetroRadioEcho
· 8ч назад
Статическое планирование памяти — это технический термин, звучит так, будто он экономит видеопамять
Посмотреть ОригиналОтветить0
ReboundAtTheStreetCornerAfter
· 8ч назад
Dawn компиляция оставляет бэкдор для хардкорных игроков, похвала
Посмотреть ОригиналОтветить0
Подробнее
  • Закреплено