Trình duyệt chạy mô hình lớn cuối cùng cũng không cần nhìn sắc mặt của nhà cung cấp dịch vụ đám mây nữa, GPU cục bộ trực tiếp khởi động

Xem bản gốc
MeNews
llama.cpp chính thức hỗ trợ WebGPU, khả năng suy luận trên trình duyệt giảm hơn 30% bộ nhớ GPU
llama.cpp và ggml chính thức phát hành backend WebGPU chính thức, trình duyệt có thể chạy mô hình lớn GGUF tăng tốc GPU cục bộ, hoàn toàn trên thiết bị, dữ liệu không rời khỏi thiết bị, thực hiện suy luận riêng tư không cấu hình. Bài báo cho biết việc lập kế hoạch bộ nhớ tĩnh và tải hiệu quả giúp giảm bộ nhớ GPU trên trình duyệt từ 29–33%, tăng throughput giải mã trên các thiết bị của Intel, Apple, Nvidia từ 45–69%. Buổi trình diễn dựa trên wllama, tối ưu hóa nền tảng vượt mong đợi của bài báo. Cũng có thể biên dịch cục bộ qua Google C++ WebGPU Dawn, cung cấp so sánh chuẩn giữa Vulkan và WebGPU.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim