Tôi vừa thấy Intel đã cung cấp trên Hugging Face các phiên bản đã được lượng tử hóa INT4 của các mô hình video Wan 2.2 của Alibaba. Điều này rất thú vị về mặt tối ưu hóa mô hình.



Về cơ bản, Intel đã giảm kích thước của các trọng số của mỗi mô hình một cách đáng kể. Mỗi trọng số từng chiếm 2 byte trong BF16 giờ chỉ còn chiếm 0,5 byte sau khi lượng tử hóa INT4. Điều này có nghĩa là tổng kích thước giảm xuống khoảng một phần tư so với ban đầu. Công cụ được sử dụng là AutoRound.

Ba mô hình được phát hành là T2V-A14B (chữ để video), I2V-A14B (hình ảnh để video) và TI2V-5B (đầu vào hỗn hợp văn bản và hình ảnh). Các mô hình A14B gốc chạy trên kiến trúc MoE với tổng cộng 27 tỷ tham số, trong đó 14 tỷ được kích hoạt mỗi bước. Nếu không lượng tử hóa INT4, chúng yêu cầu ít nhất 80GB VRAM mỗi GPU chỉ để xử lý độ phân giải 720p.

Thứ tiện lợi nhất là TI2V-5B, một mô hình dày đặc có thể chạy 720p ở 24fps trên GPU 4090 ngay cả ở dạng ban đầu. Tưởng tượng sau khi áp dụng tối ưu hóa INT4.

Điều quan trọng là Intel vẫn chưa công bố các benchmark đầy đủ về tiêu thụ VRAM hoặc chất lượng hình ảnh sau khi lượng tử hóa INT4. Sẽ còn phụ thuộc vào kiểm tra của bên thứ ba. Đối với ai muốn thử nghiệm, Intel chỉ ra nhánh vllm-omni là lựa chọn triển khai, vì các mô hình này không chạy trong pipeline chính của vLLM.

Đây là loại tối ưu hóa giúp các mô hình video này trở nên dễ tiếp cận hơn nhiều đối với những người không có phần cứng cao cấp.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim