Kiến trúc ZAYA1-8B này khá thú vị, tự hồi quy chuyển sang MoE khuếch tán vẫn có thể xử lý 16 token trong một lần truyền trực tiếp loại bỏ nhiễu, tốc độ tăng 7.7x thực sự đã biến áp lực bộ nhớ GPU thành sức mạnh tính toán.

Xem bản gốc
MeNews
Zyphra phát hành mô hình ngôn ngữ mở rộng đầu tiên trong hệ sinh thái AMD, tăng tốc tối đa 7,7 lần
Zyphra phát hành ZAYA1-8B-Diffusion-Preview, chuyển đổi mô hình ngôn ngữ lớn tự hồi quy thành mô hình khuếch tán chuyên gia hỗn hợp, trở thành mô hình ngôn ngữ khuếch tán đầu tiên được huấn luyện trong hệ sinh thái phần cứng AMD. Thông qua TiDAR bỏ qua việc huấn luyện từ đầu, có thể loại bỏ nhiễu cùng lúc cho 16 token trong một lần truyền, biến giới hạn bộ nhớ GPU thành giới hạn sức mạnh tính toán. Thử nghiệm thực tế cho thấy tốc độ tăng 4.6 lần với chú ý CCA + lấy mẫu không mất mát, sau khi chuyển sang bộ lấy mẫu logit hỗn hợp, tăng lên 7.7 lần.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim