llama.cpp và ggml chính thức phát hành backend WebGPU chính thức, trình duyệt có thể chạy mô hình lớn GGUF tăng tốc GPU cục bộ, hoàn toàn trên thiết bị, dữ liệu không rời khỏi thiết bị, thực hiện suy luận riêng tư không cấu hình. Bài báo cho biết việc lập kế hoạch bộ nhớ tĩnh và tải hiệu quả giúp giảm bộ nhớ GPU trên trình duyệt từ 29–33%, tăng throughput giải mã trên các thiết bị của Intel, Apple, Nvidia từ 45–69%. Buổi trình diễn dựa trên wllama, tối ưu hóa nền tảng vượt mong đợi của bài báo. Cũng có thể biên dịch cục bộ qua Google C++ WebGPU Dawn, cung cấp so sánh chuẩn giữa Vulkan và WebGPU.

MeNews

2026-05-22 13:03:46

Đang tạo bản tóm tắt

ME AI Thông báo, theo theo dõi Beating, phiên bản chính thức của ggml WebGPU backend dành cho llama.cpp đã ra mắt, hỗ trợ chạy trực tiếp các mô hình lớn định dạng GGUF trên trình duyệt bằng cách tăng tốc GPU cục bộ. Backend mới này thoát khỏi sự phụ thuộc vào khách hàng gốc hoặc kiến trúc WebAssembly phức tạp, thực hiện suy luận riêng trên thiết bị, dữ liệu không rời khỏi thiết bị, mở ra cổng tính toán cục bộ không cần cấu hình cho hệ sinh thái web. Bài báo liên quan công bố ngày 20 tháng 5 chỉ ra rằng, backend WebGPU giới thiệu kế hoạch bộ nhớ tĩnh và cơ chế tải mô hình hiệu quả, giảm tiêu thụ bộ nhớ GPU trong thời gian chạy trên trình duyệt từ 29% đến 33% so với các framework hiện có. Trên các thiết bị GPU chính như Intel, Apple và Nvidia, thông lượng giải mã trung bình tăng từ 45% đến 69%. Trình diễn trên web dựa trên thư viện mã nguồn mở wllama, các tối ưu hóa nền tảng gần đây đã đạt được kiểm soát bộ nhớ GPU tốt hơn so với bài báo. llama.cpp còn có thể biên dịch gốc native bằng Dawn qua WebGPU C++ của Google, cung cấp chuẩn đánh giá so sánh hiệu năng nền tảng giữa Vulkan và WebGPU. （Nguồn: BlockBeats）

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

13 thích

Phần thưởng
13
10
2
Retweed

Bình luận

Thêm một bình luận

UnderTheGlassDome

· 6giờ trước

ggml lần này làm rất kỹ phần thích nghi với WebGPU, giảm 29% bộ nhớ VRAM thật ấn tượng

Xem bản gốcTrả lời0

StargazerInTheWoods

· 7giờ trước

Rào cản lớn nhất để phổ biến WebGPU có phải là việc Safari hỗ trợ không?

Xem bản gốcTrả lời0

MountainBeforeTheStorm

· 7giờ trước

Suy luận hoàn toàn phía cuối nghĩa là lịch sử trò chuyện của tôi cuối cùng không cần phải lên đám mây nữa

Xem bản gốcTrả lời0

OwlMarketMonitoringLamp

· 8giờ trước

Cuối cùng có thể chạy mô hình lớn cục bộ trong trình duyệt, các fan về quyền riêng tư vui mừng khôn xiết

Xem bản gốcTrả lời0

BridgeHopRanger

· 8giờ trước

Sau này Chrome sẽ là IDE AI của tôi

Xem bản gốcTrả lời0

APuppyInTheWarmSun

· 8giờ trước

Tăng thông lượng 45-69%, trải nghiệm trên trình duyệt cần có bước đột phá

Xem bản gốcTrả lời0

LpGrandma

· 8giờ trước

Định dạng GGUF + WebGPU, hệ sinh thái llama.cpp ngày càng hoàn thiện

Xem bản gốcTrả lời0

AirdropArchivist

· 8giờ trước

Nhịp độ phát hành này, nhóm llama.cpp thật sự không ngủ đúng không?

Xem bản gốcTrả lời0

RetroRadioEcho

· 8giờ trước

Lập kế hoạch bộ nhớ tĩnh, thuật ngữ kỹ thuật này nghe đã thấy tiết kiệm bộ nhớ hiển thị

Xem bản gốcTrả lời0

ReboundAtTheStreetCornerAfter

· 8giờ trước

Dawn biên dịch con đường này để lại hậu thuẫn cho các game thủ cứng, đánh giá cao

Xem bản gốcTrả lời0

Xem thêm

Chủ đề thịnh hành
Xem thêm
#
TradfiTradingChallenge
269.71K Phổ biến
#
PlatinumCardCreatorExclusive
80K Phổ biến
#
IsraelStrikesIranBTCPlunges
48.62K Phổ biến
#
#DailyPolymarketHotspot
1.03M Phổ biến
#
GateSquarePizzaDay
1.75M Phổ biến

Đã ghim

sơ đồ trang web

llama.cpp chính thức hỗ trợ WebGPU, khả năng suy luận trên trình duyệt giảm hơn 30% bộ nhớ GPU

Chủ đề thịnh hành

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Đã ghim