Một dự án mã nguồn mở rất thú vị AirLLM


Tối ưu hóa sử dụng bộ nhớ suy luận, cho phép mô hình lớn 70B có thể chạy trên card đồ họa có bộ nhớ 4G
Không cần lượng hóa, chưng cất và cắt tỉa.
Chạy Llama3.1 405B trên bộ nhớ 8G
Còn muốn có GLM 5.2 hơn nữa. Chẳng phải bộ nhớ chia sẻ hơn 40G của tôi cũng có thể chạy 700+B sao?
Star🌟 21.3k
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim