Mặt tối của mặt trăng lần này đã bỏ đi việc điền trước sang địa điểm khác, bộ đệm KV có thể chịu đựng được qua mạng Ethereum, mô hình 1T đạt throughput trực tiếp tăng 54%, lập lịch phân tán đã hiểu rõ rồi

Xem bản gốc
MeNews
Mặt tối của mặt trăng và bài báo mới của Tsinghua: Tiền điền trước LLM có thể vượt qua trung tâm dữ liệu, thông lượng của mô hình 1T tăng 54%
Bản tin ME News đưa tin, mặt tối của tháng và Tsinghua đã đề xuất trên arXiv Prefill-as-a-Service, chạy giai đoạn tiền điền của suy luận mô hình lớn qua nhiều trung tâm dữ liệu. Thông qua mô hình chú ý hỗn hợp, giảm đáng kể thông lượng bộ đệm KV, cho phép bộ đệm truyền qua Ethernet và phản hồi về giải mã cụm cục bộ. Kiến trúc PrfaaS xây dựng cụm tiền điền độc lập, chỉ định tuyến các yêu cầu không trúng mục tiêu dài, yêu cầu ngắn giữ lại tại PD cục bộ; đồng thời giới thiệu định tuyến ngưỡng độ dài, lập lịch cảm biến băng thông. Thử nghiệm với mô hình hỗn hợp 1T tham số, tăng thông lượng so với PD đồng dạng là 54%, so với phân tán dị dạng đơn thuần là 32%.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim