GPU chung chạy 1T MoE vượt qua nghìn token, thiết kế hợp tác này có chút gì đó

Xem bản gốc
CoinNetwork
Tin tức từ Coinjie.com, nhóm Xiaomi Mimo và hệ thống tối ưu hóa biên dịch AI Tilert đã công bố ra mắt chế độ suy luận Mimo-v2.5-pro-ultraspeed. Trên một nút GPU đa năng tiêu chuẩn gồm 8 card, đã thành công đạt tốc độ sinh tối đa hơn 1.000 tokens/giây trên mô hình chuyên gia hỗn hợp (MoE) có 1 nghìn tỷ tham số, đạt đỉnh khoảng 1.200 tokens/giây. Điều này đánh dấu lần đầu tiên, chỉ dựa vào phần cứng phổ thông và thiết kế phối hợp mô hình-hệ thống, mà không cần sử dụng phần cứng đặc biệt như tích hợp quy trình wafer hoặc chip SRAM chuyên dụng trên chip, vượt qua tốc độ sinh token nghìn tỷ đầu tiên của mô hình 1T.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim