PrfaaS kiến trúc này thú vị, khi không bắt được ngữ cảnh dài sẽ chuyển hướng đến cụm tiền điền riêng biệt, yêu cầu ngắn thì xử lý tại PD cục bộ, điều phối nhận thức băng thông để tránh chen lấn vô ích

Xem bản gốc
MeNews
Mặt tối của mặt trăng và bài báo mới của Tsinghua: Tiền điền trước LLM có thể vượt qua trung tâm dữ liệu, thông lượng của mô hình 1T tăng 54%
Bản tin ME News đưa tin, mặt tối của tháng và Tsinghua đã đề xuất Prefill-as-a-Service trên arXiv, chạy giai đoạn tiền điền của suy luận mô hình lớn qua nhiều trung tâm dữ liệu. Thông qua mô hình chú ý hỗn hợp, giảm đáng kể thông lượng bộ đệm KV, cho phép bộ đệm truyền qua Ethernet và phản hồi về cụm máy chủ cục bộ để giải mã. Kiến trúc PrfaaS xây dựng cụm tiền điền độc lập, chỉ định tuyến các yêu cầu không trúng dài hạn, các yêu cầu ngắn giữ lại tại PD cục bộ; đồng thời giới thiệu định tuyến ngưỡng độ dài, lập lịch cảm nhận băng thông. Thử nghiệm với mô hình hỗn hợp 1T tham số, tăng thông lượng so với PD đồng nhất là 54%, so với mô hình dị hợp đơn thuần là 32%.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim