llama.cpp chính thức hỗ trợ WebGPU, khả năng suy luận trên trình duyệt giảm hơn 30% bộ nhớ GPU

robot
Đang tạo bản tóm tắt
ME AI Thông báo, theo theo dõi Beating, phiên bản chính thức của ggml WebGPU backend dành cho llama.cpp đã ra mắt, hỗ trợ chạy trực tiếp các mô hình lớn định dạng GGUF trên trình duyệt bằng cách tăng tốc GPU cục bộ. Backend mới này thoát khỏi sự phụ thuộc vào khách hàng gốc hoặc kiến trúc WebAssembly phức tạp, thực hiện suy luận riêng trên thiết bị, dữ liệu không rời khỏi thiết bị, mở ra cổng tính toán cục bộ không cần cấu hình cho hệ sinh thái web. Bài báo liên quan công bố ngày 20 tháng 5 chỉ ra rằng, backend WebGPU giới thiệu kế hoạch bộ nhớ tĩnh và cơ chế tải mô hình hiệu quả, giảm tiêu thụ bộ nhớ GPU trong thời gian chạy trên trình duyệt từ 29% đến 33% so với các framework hiện có. Trên các thiết bị GPU chính như Intel, Apple và Nvidia, thông lượng giải mã trung bình tăng từ 45% đến 69%. Trình diễn trên web dựa trên thư viện mã nguồn mở wllama, các tối ưu hóa nền tảng gần đây đã đạt được kiểm soát bộ nhớ GPU tốt hơn so với bài báo. llama.cpp còn có thể biên dịch gốc native bằng Dawn qua WebGPU C++ của Google, cung cấp chuẩn đánh giá so sánh hiệu năng nền tảng giữa Vulkan và WebGPU. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 10
  • 2
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
UnderTheGlassDome
· 6giờ trước
ggml lần này làm rất kỹ phần thích nghi với WebGPU, giảm 29% bộ nhớ VRAM thật ấn tượng
Xem bản gốcTrả lời0
StargazerInTheWoods
· 7giờ trước
Rào cản lớn nhất để phổ biến WebGPU có phải là việc Safari hỗ trợ không?
Xem bản gốcTrả lời0
MountainBeforeTheStorm
· 7giờ trước
Suy luận hoàn toàn phía cuối nghĩa là lịch sử trò chuyện của tôi cuối cùng không cần phải lên đám mây nữa
Xem bản gốcTrả lời0
OwlMarketMonitoringLamp
· 8giờ trước
Cuối cùng có thể chạy mô hình lớn cục bộ trong trình duyệt, các fan về quyền riêng tư vui mừng khôn xiết
Xem bản gốcTrả lời0
BridgeHopRanger
· 8giờ trước
Sau này Chrome sẽ là IDE AI của tôi
Xem bản gốcTrả lời0
APuppyInTheWarmSun
· 8giờ trước
Tăng thông lượng 45-69%, trải nghiệm trên trình duyệt cần có bước đột phá
Xem bản gốcTrả lời0
LpGrandma
· 8giờ trước
Định dạng GGUF + WebGPU, hệ sinh thái llama.cpp ngày càng hoàn thiện
Xem bản gốcTrả lời0
AirdropArchivist
· 8giờ trước
Nhịp độ phát hành này, nhóm llama.cpp thật sự không ngủ đúng không?
Xem bản gốcTrả lời0
RetroRadioEcho
· 8giờ trước
Lập kế hoạch bộ nhớ tĩnh, thuật ngữ kỹ thuật này nghe đã thấy tiết kiệm bộ nhớ hiển thị
Xem bản gốcTrả lời0
ReboundAtTheStreetCornerAfter
· 8giờ trước
Dawn biên dịch con đường này để lại hậu thuẫn cho các game thủ cứng, đánh giá cao
Xem bản gốcTrả lời0
Xem thêm
  • Đã ghim