Tập hợp Tsinghua + Mặt tối của tháng này khá thú vị, bỏ prefill ra khỏi trung tâm dữ liệu từ xa, xiềng xích của RDMA cuối cùng cũng được tháo ra

Xem bản gốc
MeNews
Mặt tối của mặt trăng và bài báo mới của Tsinghua: Tiền điền trước LLM có thể vượt qua trung tâm dữ liệu, thông lượng của mô hình 1T tăng 54%
ME News Tin tức, ngày 18 tháng 4 (UTC+8), theo theo dõi của Động Trắc Beating, Moonshot AI và Đại học Thanh Hoa đã đăng bài báo mới trên arXiv ngày 16 tháng 4 với tiêu đề 《Prefill-as-a-Service》, đề xuất cho giai đoạn tiền xử lý suy luận của mô hình lớn (large model inference) chạy chéo trung tâm dữ liệu. Giai đoạn suy luận của mô hình lớn gồm hai bước: prefill đọc toàn bộ đầu vào một lần và tạo ra một bộ đệm KV; decode sau đó dựa trên bộ đệm này để từng từ một xuất ra kết quả. Hai bước này yêu cầu đặc tính phần cứng hoàn toàn khác nhau, prefill tiêu tốn sức mạnh tính toán, decode tiêu thụ bộ nhớ GPU và băng thông RAM. Phương pháp chủ đạo trong ngành là tách hai bước ra các máy khác nhau (PD phân tách), nhưng điều này yêu cầu hai bên trong cùng một trung tâm dữ liệu kết nối qua RDMA, vì mật độ
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim