llama.cpp и ggml официально выпустили WebGPU-движок, позволяющий запускать большие модели GGUF с локальным ускорением GPU в браузере, полностью на стороне клиента, без передачи данных за пределы устройства, обеспечивая нулевую настройку и приватность. В статье говорится, что статическое планирование памяти и эффективная загрузка снижают потребление видеопамяти на веб-странице на 29–33%, а декодирующая пропускная способность на устройствах Intel, Apple и Nvidia увеличивается на 45–69%. Демонстрация на базе wllama показывает, что оптимизация на низком уровне превосходит ожидания статьи. Также можно скомпилировать локально с помощью Google C++ WebGPU Dawn, предоставляя сравнительные показатели для Vulkan и WebGPU.

MeNews

2026-05-22 13:03:46

Генерация тезисов в процессе

ME AI Сообщение, согласно мониторингу 动察 Beating, официально выпущены llama.cpp и ggml для WebGPU, поддерживающие прямое ускорение работы больших моделей в формате GGUF через локальный GPU в браузере. Новый бэкенд избавился от зависимости от конкретных нативных клиентов или сложных архитектур WebAssembly, реализуя чисто клиентскую, не выходящую за пределы устройства приватную инференцию, что открывает нулевую конфигурацию локального вычислительного входа для веб-экосистемы. В статье, опубликованной 20 мая, указано, что бэкенд WebGPU внедряет статическое планирование памяти и эффективные механизмы загрузки моделей, что снижает расход видеопамяти во время работы в браузере на 29% до 33% по сравнению с существующими фреймворками. На основных GPU-устройствах, таких как Intel, Apple и Nvidia, средний прирост пропускной способности декодирования составляет от 45% до 69%. Демонстрация в браузере основана на открытой библиотеке wllama, а недавно реализованные низкоуровневые оптимизации обеспечили еще более эффективное управление видеопамятью, чем в статье. llama.cpp также может быть скомпилирован нативно с помощью Dawn, реализованного на C++ WebGPU от Google, что предоставляет базу для сравнения производительности между Vulkan и WebGPU. （Источник：BlockBeats）

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

13 Лайков

Награда
13
10
2
Поделиться

комментарий

Добавить комментарий

UnderTheGlassDome

· 6ч назад

ggml эта адаптация под WebGPU выполнена очень тщательно, снижение использования видеопамяти на 29% — достойно внимания

Посмотреть ОригиналОтветить0

StargazerInTheWoods

· 7ч назад

Является ли поддержка Safari крупнейшим препятствием для популяризации WebGPU?

Посмотреть ОригиналОтветить0

MountainBeforeTheStorm

· 7ч назад

Чисто локальное выполнение выводов означает, что моя история чатов наконец-то не нужно загружать в облако

Посмотреть ОригиналОтветить0

OwlMarketMonitoringLamp

· 8ч назад

Наконец-то можно запускать локальные большие модели прямо в браузере, и сторонники конфиденциальности ликуют.

Посмотреть ОригиналОтветить0

BridgeHopRanger

· 8ч назад

В будущем Chrome станет моим AI-IDE.

Посмотреть ОригиналОтветить0

APuppyInTheWarmSun

· 8ч назад

45-69% увеличение пропускной способности, качество веб-опыта должно кардинально измениться

Посмотреть ОригиналОтветить0

LpGrandma

· 8ч назад

GGUF формат + WebGPU, экосистема llama.cpp становится всё более полной

Посмотреть ОригиналОтветить0

AirdropArchivist

· 8ч назад

Этот ритм публикаций, команда llama.cpp действительно не спит.

Посмотреть ОригиналОтветить0

RetroRadioEcho

· 8ч назад

Статическое планирование памяти — это технический термин, звучит так, будто он экономит видеопамять

Посмотреть ОригиналОтветить0

ReboundAtTheStreetCornerAfter

· 8ч назад

Dawn компиляция оставляет бэкдор для хардкорных игроков, похвала

Посмотреть ОригиналОтветить0

Подробнее

Популярные темы
Подробнее
#
TradfiTradingChallenge
269.43K Популярность
#
PlatinumCardCreatorExclusive
80K Популярность
#
IsraelStrikesIranBTCPlunges
48.62K Популярность
#
#DailyPolymarketHotspot
1.03M Популярность
#
GateSquarePizzaDay
1.75M Популярность

Закреплено

Карта сайта

llama.cpp официально поддерживает WebGPU, объем видеопамяти для вывода на стороне браузера снизился более чем на 30%

Популярные темы

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Закреплено