DeepSeek mô hình mã nguồn mở V4, quy mô tham số đạt 1,6 nghìn tỷ

robot
Đang tạo bản tóm tắt

Odaily Planet Daily đưa tin DeepSeek phát hành bản xem trước của dòng mô hình mã nguồn mở V4, sử dụng giấy phép MIT, trọng số đã có trên Hugging Face và ModelScope.

Dòng này bao gồm hai mô hình MoE, trong đó V4-Pro có tổng tham số khoảng 1,6 nghìn tỷ, 490 tỷ tham số kích hoạt trên mỗi token, V4-Flash có tổng tham số 2840 tỷ, kích hoạt 130 tỷ tham số, đều hỗ trợ ngữ cảnh khoảng 1 triệu token. Chính thức cho biết, so với phiên bản V3.2, tiêu thụ bộ nhớ GPU và chi phí tính toán trong suy luận văn bản dài đã giảm rõ rệt.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim