Запуск больших моделей в браузере наконец-то избавил от необходимости смотреть на настроение облачных провайдеров, локальный GPU запускается напрямую

Посмотреть Оригинал
MeNews
llama.cpp официально поддерживает WebGPU, объем видеопамяти для вывода на стороне браузера снизился более чем на 30%
llama.cpp и ggml официально выпустили WebGPU-движок, позволяющий запускать большие модели GGUF с локальным ускорением GPU в браузере, полностью на стороне клиента, без передачи данных за пределы устройства, обеспечивая нулевую настройку и приватность. В статье говорится, что статическое планирование памяти и эффективная загрузка снижают потребление видеопамяти на веб-странице на 29–33%, а декодирующая пропускная способность на устройствах Intel, Apple и Nvidia увеличивается на 45–69%. Демонстрация на базе wllama показывает, что оптимизация на низком уровне превосходит ожидания статьи. Также можно скомпилировать локально с помощью Google C++ WebGPU Dawn, предоставляя сравнительные показатели для Vulkan и WebGPU.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено