Từ bài báo đến sản xuất calo thực tế, tốc độ này không giống học viện

Xem bản gốc
CoinNetwork
Thông tin từ Coinjie.com, Zhipu hợp tác với Yuxun Network và Đại học Thanh Hoa đề xuất kiến trúc mạng suy luận mô hình lớn thế hệ tiếp theo ZCube, nhằm giải quyết vấn đề tắc nghẽn mạng cấu trúc ngày càng nghiêm trọng trong việc triển khai riêng biệt PD (pre-fill-decode) của mô hình lớn. Kiến trúc ZCube đã được triển khai trong môi trường sản xuất trực tuyến của GLM-5.1 coding. Kiến trúc này loại bỏ switch lớp spine, sử dụng kiến trúc mạng phẳng toàn mạng (đường kính mạng 2 nhảy), kết hợp cơ chế truy cập hỗn hợp đơn/lưới, đạt được cân bằng tải lưu lượng giữa các switch toàn mạng giữa các nút. Trong các bài kiểm tra chuẩn, kiến trúc ZCube giảm 33% chi phí phần cứng switch và module quang so với kiến trúc truyền thống, đồng thời tăng trung bình thông lượng suy luận GPU lên 15%, giảm 40.6% phân vị P99 của độ trễ token đầu tiên (TTFT).
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim