Thanh Hoa + Mặt tối của tháng này đã tách phần tiền dự trữ ra để chạy, bộ đệm KV có thể chịu đựng được qua mạng Ethereum, tăng throughput 54% thực sự rất tuyệt, cấu trúc chi phí của suy luận ngữ cảnh dài sẽ thay đổi lớn rồi

Xem bản gốc
MeNews
Mặt tối của mặt trăng và bài báo mới của Tsinghua: Tiền điền trước LLM có thể vượt qua trung tâm dữ liệu, thông lượng của mô hình 1T tăng 54%
Bản tin ME News đưa tin, mặt tối của tháng và Tsinghua đã đề xuất Prefill-as-a-Service trên arXiv, chạy giai đoạn tiền điền của suy luận mô hình lớn qua nhiều trung tâm dữ liệu. Thông qua mô hình chú ý hỗn hợp, giảm đáng kể thông lượng bộ đệm KV, cho phép bộ đệm truyền qua Ethernet và phản hồi về cụm xử lý cục bộ. Kiến trúc PrfaaS xây dựng cụm tiền điền độc lập, chỉ định tuyến các yêu cầu không trúng mục tiêu dài, các yêu cầu ngắn giữ lại tại PD cục bộ; đồng thời giới thiệu định tuyến ngưỡng độ dài, lập lịch cảm biến băng thông. Thử nghiệm với mô hình hỗn hợp 1T tham số, tăng thông lượng so với PD đồng nhất là 54%, so với mô hình dị hợp đơn thuần là 32%.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim