Lộ Phỉ tiết lộ bí mật giảm chi phí của MiMo: Tính toán chú ý tiền điền giảm xuống mức độ GQA toàn cục 10 lớp

robot
Đang tạo bản tóm tắt
Thông tin từ Coinjie.com, Luo Fuli đã công bố trên nền tảng X cơ chế giảm chi phí thuật toán vĩnh viễn sau khi giảm giá API của dòng mô hình lớn tự phát triển MiMo-v2.5. Cô tiết lộ rằng, sau khi giá API được điều chỉnh phù hợp với DeepSeek, động cơ suy luận tải cao của Xiaomi vẫn có thể duy trì cân bằng lợi nhuận và lỗ, chi phí giảm chủ yếu đến từ kiến trúc chú ý hỗn hợp và tối ưu hóa bộ đệm KV phân cấp. Nhằm mục tiêu giảm chi phí truy cập bộ đệm đạt 99%, khung suy luận của Xiaomi đã thực hiện tối ưu hóa bộ đệm KV phân cấp cho chú ý cửa sổ trượt SWA, thử nghiệm sản xuất cho thấy, tối ưu hóa phân cấp đã nâng dung lượng token của bộ đệm lên gấp 5 lần, giảm 80% chi phí bộ đệm. Luo Fuli cho biết, dịch vụ suy luận chi phí thấp có lợi trong việc kích thích nhu cầu trí thông minh cuối cùng, các doanh nghiệp mô hình lớn nên tránh chiến tranh giá cả mù quáng, thông qua thiết kế phối hợp giữa thuật toán và hệ thống suy luận ở tầng dưới, kiểm soát chi phí vận hành thực tế dưới mức cân bằng lợi nhuận và lỗ.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 5
  • 2
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
ASolitaryRockBeforeTheVolcano
· 5giờ trước
MiMo đợt giảm giá này thật là quyết đoán, giảm 99% chi phí nghe có vẻ như trong phim viễn tưởng, nhưng tối ưu hóa SWA thực sự có chút gì đó
Xem bản gốcTrả lời0
LendingRateAnxiety
· 5giờ trước
Sự kết hợp giữa chú ý pha trộn và bộ nhớ đệm phân cấp, khi áp dụng bộ combo này, các nhà máy nhỏ gặp áp lực chi phí suy luận lớn hơn.
Xem bản gốcTrả lời0
Pragmatists
· 5giờ trước
Làm thế nào để nâng cao dung lượng bộ đệm gấp 5 lần? Có bài báo nào về bộ đệm KV phân tầng để đọc kỹ không?
Xem bản gốcTrả lời0
InstantNoodlesWithContracts
· 5giờ trước
Hợp tác giảm chi phí giữa các lớp thuật toán và hệ thống mới là cách đúng đắn, chỉ dựa vào giá bán lẻ thì không có lối thoát, Luofu Li nhìn nhận rất rõ điểm này
Xem bản gốcTrả lời0
PocketValidator
· 5giờ trước
DeepSeek sau khi cân bằng vẫn có thể hòa vốn, cho thấy mức định giá ban đầu thực sự còn dư địa, hiện tại đã trở lại mức hợp lý
Xem bản gốcTrả lời0
  • Đã ghim