Mô hình nguồn mở nghìn tỷ tham số đạt 981 từ/giây, Cerebras thử nghiệm Kimi K2.6 tăng tốc 29 lần

robot
Đang tạo bản tóm tắt
ME News tin tức, ngày 20 tháng 5 (UTC+8), theo giám sát của Beating, công ty chip cấp độ tấm bán dẫn Cerebras thông báo triển khai mô hình lớn nghìn tỷ tham số Kimi K2.6 trong bài kiểm tra doanh nghiệp, thông qua việc tích hợp chip trực tiếp trên toàn bộ tấm silicon 12 inch, loại bỏ hoàn toàn độ trễ kết nối giao tiếp giữa các bo mạch truyền thống. Tổ chức đánh giá bên thứ ba Artificial Analysis đo thực tế cho thấy tốc độ sinh của nó đạt 981 tokens/s, nhanh hơn 6,7 lần so với dịch vụ đám mây GPU chính thống. Trong nhiệm vụ văn bản dài với 10000 input và 500 output token, tổng thời gian phản hồi giảm từ 163,7 giây của giao diện chính thức Kimi xuống còn 5,6 giây, tăng tốc lên 29 lần. Do trọng số mô hình được phân bổ vào nhiều tấm bán dẫn để truyền phát giá trị kích hoạt, giao tiếp giữa các lớp hoàn toàn chạy trên mạng lưới bên trong tấm bán dẫn, băng thông giao tiếp vật lý của nó đạt hơn 200 lần so với NVLink trong kiến trúc NVL72 của NVIDIA. Kết hợp với tối ưu tính toán phân tán, Kimi K2.6 lưu trữ tổn thất thấp với trọng số 4-bit gốc, sử dụng số thực dấu phẩy động 16-bit để duy trì độ chính xác khi tính toán, và áp dụng nhân hạt tùy chỉnh cùng giải mã suy diễn để cuối cùng đạt được chạy thời gian thực. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận