Mặt tối của mặt trăng này, dịch vụ Prefill-as-a-Service chơi khá phức tạp, gửi phần tiền đi xa để chạy, chỉ giữ lại giải mã ở địa phương, áp lực băng thông trực tiếp giảm một nửa, cuối cùng có thể xem xét hiệu suất chi phí của các kịch bản dài và ngữ cảnh mở rộng.

Xem bản gốc
MeNews
Mặt tối của mặt trăng và bài báo mới của Tsinghua: Tiền điền trước LLM có thể vượt qua trung tâm dữ liệu, thông lượng của mô hình 1T tăng 54%
ME News đưa tin, mặt tối của tháng và Tsinghua đã đề xuất trên arXiv Prefill-as-a-Service, chạy giai đoạn tiền điền của suy luận mô hình lớn qua nhiều trung tâm dữ liệu. Thông qua mô hình chú ý hỗn hợp, giảm đáng kể thông lượng bộ đệm KV, cho phép bộ đệm truyền qua Ethernet và phản hồi về cụm giải mã cục bộ. Kiến trúc PrfaaS xây dựng cụm tiền điền độc lập, chỉ định tuyến các yêu cầu không trúng mục tiêu dài, yêu cầu ngắn giữ lại tại PD cục bộ; đồng thời giới thiệu định tuyến ngưỡng độ dài, lập lịch cảm biến băng thông. Thử nghiệm với mô hình hỗn hợp 1T tham số, tăng thông lượng so với PD đồng dạng là 54%, so với mô hình dị hợp thuần túy là 32%.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim