Mặt tối của mặt trăng và bài báo mới của Tsinghua: Tiền điền trước LLM có thể vượt qua trung tâm dữ liệu, thông lượng của mô hình 1T tăng 54%

robot
Đang tạo bản tóm tắt
ME Tin tức, ngày 18 tháng 4 (UTC+8), theo giám sát của Động Trắc Beating, Moonshot AI và Đại học Thanh Hoa đã đăng bài báo mới trên arXiv ngày 16 tháng 4 với tiêu đề 《Prefill-as-a-Service》, đề xuất cho phép giai đoạn tiền điền (prefill) của suy luận mô hình lớn chạy xuyên trung tâm dữ liệu.
Suy luận mô hình lớn gồm hai bước: prefill đọc toàn bộ đầu vào một lần, tạo ra một bộ đệm KV; decode sau đó dựa trên bộ đệm này để từng chữ xuất ra kết quả.
Hai bước này yêu cầu đặc tính phần cứng hoàn toàn khác nhau, prefill tiêu tốn sức mạnh tính toán, decode tiêu thụ bộ nhớ GPU và băng thông.
Phương pháp chủ đạo trong ngành là tách hai bước ra các máy khác nhau (PD phân tách), nhưng điều này yêu cầu hai bên kết nối qua RDMA trong cùng một trung tâm dữ liệu, vì bộ đệm KV của mô hình attention tập trung mỗi giây phát ra hàng chục Gbps, nếu truyền chậm GPU sẽ rỗng chạy.
Sự chuyển biến đến từ mô hình attention lai thế hệ mới.
Bài báo thực nghiệm cho thấy các mô hình như Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T, qua việc kết hợp một số lớp attention đầy đủ với nhiều lớp tuyến tính, đã giảm xung lượng bộ đệm KV khoảng một cấp độ,
Ring-2.5-1T đạt tỷ lệ nén tổng hợp lên tới 36 lần.
Lúc này, bộ đệm KV có thể chuyển từ mạng riêng RDMA sang mạng Ethernet thông thường để truyền.
Cách thực hiện của PrfaaS: thành lập "cụm tiền điền" độc lập, chỉ định tuyến các yêu cầu có ngữ cảnh dài, tiền tố chưa trúng, còn các yêu cầu ngắn giữ lại trong cụm PD cục bộ;
Sau khi tiền điền hoàn tất, truyền bộ đệm KV về lại cụm cục bộ qua Ethernet để decode.
Kèm theo đó là giới hạn độ dài tuyến đường, bộ điều phối cảm nhận băng thông và bể đệm tiền tố lai.
Bài báo đã thực nghiệm với mô hình hybrid nội bộ 1T tham số (dựa trên kiến trúc Kimi Linear), cho thấy tổng thể qua lại dịch vụ cao hơn 54% so với triển khai PD đồng nhất,
cao hơn 32% so với phương án lai dị hợp đơn thuần, mỗi máy chỉ tiêu thụ băng thông liên trung tâm dữ liệu vừa phải.
(Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 6
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
DewdropSapling
· 27phút trước
PrfaaS cái tên này, sau này có phải còn Decode-as-a-Service không
Xem bản gốcTrả lời0
InstantNoodle-LevelResearcher
· 1giờ trước
Thanh Hoa + Mặt tối của tháng, hạ tầng mô hình lớn trong nước bắt đầu cạnh tranh theo hướng mới
Xem bản gốcTrả lời0
LateBlockLarry
· 1giờ trước
54% tăng trưởng nghe có vẻ hấp dẫn, nhưng thực tế triển khai cần xem xét cách cô lập đa thuê và phục hồi sau sự cố
Xem bản gốcTrả lời0
MempoolMaggie
· 1giờ trước
Lưu trữ KV qua Ethernet, chi phí băng thông tính ra còn đắt hơn cả sức mạnh tính toán phải không?
Xem bản gốcTrả lời0
MintLiquidationWarning
· 2giờ trước
Chỉ định tuyến dài hạn chưa trúng, yêu cầu ngắn giữ tại chỗ, chiến lược phân cấp này khá thực tế
Xem bản gốcTrả lời0
GateUser-2100b43b
· 2giờ trước
Mô hình chú ý pha trộn giảm thông qua bộ đệm KV, ý tưởng này khiến tôi nhớ đến một số thủ thuật trong đào tạo phân tán từ những ngày đầu
Xem bản gốcTrả lời0
  • Đã ghim