JetBrains đợt mở nguồn này rất thực tế, mô hình 12B chỉ kích hoạt 2.5B, chi phí kiểm soát cực kỳ chặt chẽ, dự thảo MTP cũng có chút ý nghĩa

Xem bản gốc
CoinNetwork
Mô hình mã nguồn mở Mellum-2 của JetBrains: Hỗ trợ đầu MTP tích hợp để tăng tốc giải mã dự đoán
JetBrains mở nguồn Mellum-2, mô hình chuyên gia mã hóa hỗn hợp với 12B tham số. Để kiểm soát chi phí suy luận, mỗi token chỉ kích hoạt khoảng 2.5 tỷ tham số, trọng số đã được phát hành trên Hugging Face, Apache 2.0. Thêm vào đó là mô-đun dự đoán nhiều token (MTP), trong quá trình suy luận, đầu MTP hoạt động như một mô hình sơ bộ để tăng tốc quá trình lấy mẫu. Cung cấp ba phiên bản: cơ bản, đối thoại, suy nghĩ, trong đó phiên bản suy nghĩ có thể hiển thị chuỗi suy nghĩ rõ ràng trước khi xuất ra. Tiêu chuẩn đánh giá: Humaneval 41.46%, MMLU 70.87%.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim