llama.cpp y el backend oficial de ggml para WebGPU han sido lanzados oficialmente, permitiendo que los navegadores ejecuten modelos GGUF acelerados por GPU local, completamente en el lado del cliente, sin que los datos salgan del dispositivo, logrando inferencias privadas sin configuración. El artículo afirma que la planificación de memoria estática y la carga eficiente reducen el uso de memoria en la web en un 29-33%, y aumentan el rendimiento de decodificación en dispositivos de Intel, Apple y Nvidia en un 45-69%. La demostración basada en wllama, con optimizaciones de bajo nivel que superan las expectativas del artículo. También se puede compilar localmente usando Google C++ WebGPU Dawn, proporcionando comparativas de rendimiento entre Vulkan y WebGPU.

MeNews

2026-05-22 13:03:46

Generación de resúmenes en curso

MI IA Mensaje, según la monitorización de Beating, llama.cpp y el backend oficial de WebGPU de ggml han sido lanzados oficialmente, soportando la ejecución directa en navegadores mediante aceleración local de GPU para modelos grandes en formato GGUF. El nuevo backend elimina la dependencia de clientes nativos específicos o arquitecturas WebAssembly complejas, logrando inferencia privada en el lado del dispositivo sin que los datos salgan del equipo, abriendo una entrada de potencia computacional local sin configuración para el ecosistema web. La publicación del 20 de mayo señala que, al introducir planificación de memoria estática y mecanismos eficientes de carga de modelos, el consumo de memoria de GPU en tiempo de ejecución en la web se reduce entre un 29% y un 33% en comparación con los marcos existentes. En GPUs principales como Intel, Apple y Nvidia, la tasa de decodificación aumenta en promedio entre un 45% y un 69%. La demostración en la web se realiza usando la biblioteca de código abierto wllama, y las optimizaciones de bajo nivel recientemente implementadas lograron un control de memoria más eficiente que el descrito en el artículo. llama.cpp también puede compilarse de forma nativa en local mediante Dawn, usando WebGPU en C++ de Google, proporcionando una referencia para comparar el rendimiento entre Vulkan y WebGPU. (Fuente: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

13 me gusta

Recompensa
13
10
2
Compartir

Comentar

Añadir un comentario

UnderTheGlassDome

· hace4h

La adaptación de ggml para WebGPU en esta ocasión está muy bien hecha, una reducción del 29% en el uso de memoria gráfica es bastante significativa.

Ver originalResponder0

StargazerInTheWoods

· hace5h

¿El mayor obstáculo para la popularización de WebGPU es el soporte de Safari?

Ver originalResponder0

MountainBeforeTheStorm

· hace5h

El razonamiento puramente en el lado del dispositivo significa que finalmente ya no necesito subir mi historial de chat a la nube.

Ver originalResponder0

OwlMarketMonitoringLamp

· hace6h

¡Por fin se pueden ejecutar modelos grandes locales en el navegador, los defensores de la privacidad están eufóricos!

Ver originalResponder0

BridgeHopRanger

· hace6h

A partir de ahora, Chrome será mi IDE de IA.

Ver originalResponder0

APuppyInTheWarmSun

· hace6h

Mejora del rendimiento del 45-69%, la experiencia en la web debe ser una transformación cualitativa

Ver originalResponder0

LpGrandma

· hace6h

Formato GGUF + WebGPU, el ecosistema llama.cpp cada vez más completo

Ver originalResponder0

AirdropArchivist

· hace6h

Este ritmo de publicación, el equipo de llama.cpp realmente no duerme.

Ver originalResponder0

RetroRadioEcho

· hace6h

La terminología técnica de planificación de memoria estática suena como si ahorrara memoria de video.

Ver originalResponder0

ReboundAtTheStreetCornerAfter

· hace6h

Dawn compila esta ruta para dejar una puerta trasera a los jugadores hardcore, buena reseña

Ver originalResponder0

Temas de actualidad
Ver más
#
TradfiTradingChallenge
267.96K Popularidad
#
PlatinumCardCreatorExclusive
79.69K Popularidad
#
IsraelStrikesIranBTCPlunges
48.62K Popularidad
#
#DailyPolymarketHotspot
1.03M Popularidad
#
GateSquarePizzaDay
609.35K Popularidad

Fijado

llama.cpp soporta oficialmente WebGPU, la inferencia en el navegador reduce el uso de memoria de video en más del 30%

Temas de actualidad

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fijado