Mô hình nguồn mở mạnh nhất deepseek v4 cuối cùng đã đến! Mô hình 1,6 nghìn tỷ tham số, giấy phép MIT, bộ nhớ văn bản dài giảm xuống còn một phần mười của V3.2

ME News tin tức, ngày 24 tháng 4 (UTC+8), theo giám sát của Động Sát Beating, DeepSeek mã nguồn mở bản xem trước dòng V4, giấy phép MIT, trọng số đã được đưa lên Hugging Face và ModelScope. Dòng sản phẩm gồm hai mô hình MoE: V4-Pro tổng tham số 1,6T, mỗi token kích hoạt 49B (49 tỷ); V4-Flash tổng tham số 284B (284 tỷ), kích hoạt 13B (13 tỷ). Cả hai đều hỗ trợ ngữ cảnh 1M token. Ba nâng cấp về kiến trúc: Cơ chế chú ý hỗn hợp (Chú ý thưa thớt nén CSA + Chú ý nén mạnh HCA) giảm đáng kể chi phí ngữ cảnh dài, với ngữ cảnh 1M, FLOPs suy luận một token của V4-Pro chỉ bằng 27% của V3.2, bộ đệm KV (bộ nhớ GPU lưu trữ thông tin lịch sử khi suy luận) chỉ bằng 10% của V3.2; Siêu kết nối ràng buộc đa tạp mHC thay thế kết nối dư truyền thống, tăng cường độ ổn định truyền tín hiệu xuyên lớp; Huấn luyện chuyển sang tối ưu hóa Muon để tăng tốc hội tụ. Dữ liệu tiền huấn luyện vượt quá 32T token. Hậu huấn luyện chia làm hai giai đoạn: Đầu tiên dùng SFT và học tăng cường GRPO để huấn luyện riêng các chuyên gia từng lĩnh vực, sau đó dùng chưng cất trực tuyến để hợp nhất thành một mô hình. V4-Pro-Max (chế độ suy luận mạnh nhất) tự xưng là mô hình mã nguồn mở mạnh nhất hiện tại, chuẩn mã hóa đạt đỉnh cao, khoảng cách về suy luận và tác vụ agent so với các mô hình đóng tiên tiến đã thu hẹp đáng kể. V4-Flash-Max sau khi cung cấp đủ ngân sách suy nghĩ, hiệu suất suy luận gần bằng Pro, nhưng bị hạn chế về quy mô tham số ở các tác vụ kiến thức thuần túy và agent phức tạp. Trọng số được lưu trữ dưới độ chính xác hỗn hợp FP4+FP8. (Nguồn: Động Sát Beating)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim