MiniMax mã nguồn mở thư viện chú ý riêng biệt Blackwell, trọng số M3 dự kiến phát hành vào thứ Sáu tuần này

robot
Đang tạo bản tóm tắt
ME AI Thông báo, theo theo dõi Beating, người phụ trách quan hệ nhà phát triển MiniMax Ryan Lee đã công bố rằng thư viện chú ý hiệu suất cao MiniMax Sparse Attention (MSA) dành cho GPU NVIDIA Blackwell (SM100) đã chính thức mở mã nguồn, sử dụng giấy phép MIT. Ryan Lee cũng cho biết, trọng số của MiniMax-M3 dự kiến sẽ được phát hành vào thứ Sáu tuần này. MSA đã được áp dụng trong suy luận ngữ cảnh hàng triệu token của MiniMax-M3, bằng cách lọc ra các KV Block liên quan nhất trong mỗi nhóm GQA, chỉ thực hiện tính toán chú ý trên các khối đã chọn. Các bài báo cho thấy, trong ngữ cảnh 1 triệu token, so với GQA dày đặc cùng cấu hình, MSA có thể giảm lượng tính toán chú ý xuống 28,4 lần, và đạt tốc độ tăng tốc tiền xử lý 14,2 lần cũng như tốc độ giải mã 7,6 lần trên GPU H800. Phiên bản mã nguồn mở tích hợp trong cùng một gói Python hai bộ thực thi C++ JIT và CuTe-DSL, đồng thời cung cấp Kernel chú ý FlashAttention dày đặc và Top-k Attention r sparse, hỗ trợ nhiều định dạng chính xác như BF16, FP8, NVFP4 và FP4. Hiện chủ yếu hướng tới triển khai trên GPU NVIDIA Blackwell (SM100). (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim