PrfaaS cấu trúc này khá táo bạo — tách biệt PD đến mức tối đa, tiền điền độc lập thành dịch vụ, định tuyến theo ngưỡng độ dài, thực tế thử nghiệm còn có thể khai thác thêm 32% thông lượng so với phương pháp dị hợp đơn thuần, sự đổi mới trong tầng hạ tầng bắt đầu sôi động rồi

Xem bản gốc
MeNews
Mặt tối của mặt trăng và bài báo mới của Tsinghua: Tiền điền trước LLM có thể vượt qua trung tâm dữ liệu, thông lượng của mô hình 1T tăng 54%
Bản tin ME News đưa tin, mặt tối của tháng và Tsinghua đã đề xuất trên arXiv dịch vụ Prefill-as-a-Service, chạy giai đoạn tiền điền của suy luận mô hình lớn qua nhiều trung tâm dữ liệu. Thông qua mô hình chú ý hỗn hợp, giảm đáng kể thông lượng bộ đệm KV, cho phép bộ đệm truyền qua Ethernet và phản hồi về giải mã cụm cục bộ. Kiến trúc PrfaaS xây dựng cụm tiền điền độc lập, chỉ định tuyến các yêu cầu không trúng mục tiêu với ngữ cảnh dài, các yêu cầu ngắn giữ lại tại PD cục bộ; đồng thời giới thiệu định tuyến ngưỡng độ dài, lập lịch cảm biến băng thông. Thử nghiệm thực tế với mô hình hỗn hợp 1T tham số, tăng thông lượng so với PD đồng nhất là 54%, so với phân tán thuần túy là 32%.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim