DeepSeek V4 ra mắt: Tham số 1.6T, hỗ trợ ngữ cảnh 1M, sức mạnh suy luận chỉ bằng 27% của V3.2

ME News tin tức, ngày 24 tháng 4 (UTC+8), theo giám sát của Động Sát Beating, DeepSeek công bố mã nguồn mở bản xem trước dòng V4, giấy phép MIT, trọng số đã được đăng tải lên Hugging Face và ModelScope. Dòng sản phẩm bao gồm hai mô hình MoE: V4-Pro tổng tham số 1,6T, mỗi token kích hoạt 49B (49 tỷ); V4-Flash tổng tham số 284B (284 tỷ), kích hoạt 13B (13 tỷ). Cả hai đều hỗ trợ ngữ cảnh 1M token. Kiến trúc có ba nâng cấp: cơ chế chú ý hỗn hợp (chú ý thưa nén CSA + chú ý nén nặng HCA) giảm đáng kể chi phí ngữ cảnh dài, dưới ngữ cảnh 1M, FLOPs suy luận một token của V4-Pro chỉ bằng 27% so với V3.2, bộ nhớ đệm KV (bộ nhớ video lưu trữ thông tin lịch sử khi suy luận) chỉ bằng 10% so với V3.2; kết nối siêu chịu ràng buộc đa tạp mHC thay thế kết nối dư truyền thống, tăng cường độ ổn định truyền tín hiệu giữa các lớp; huấn luyện chuyển sang bộ tối ưu Muon để tăng tốc hội tụ. Dữ liệu tiền huấn luyện vượt quá 32T token. Hậu huấn luyện chia làm hai giai đoạn: đầu tiên dùng SFT và học tăng cường GRPO để huấn luyện riêng từng chuyên gia trong từng lĩnh vực, sau đó dùng chưng cất trực tuyến để hợp nhất thành một mô hình duy nhất. V4-Pro-Max (chế độ suy luận mạnh nhất) tự xưng là mô hình mã nguồn mở mạnh nhất hiện tại, điểm chuẩn mã hóa đạt đỉnh, khoảng cách về suy luận và tác vụ agent với các mô hình đóng tiên tiến đã được thu hẹp đáng kể. V4-Flash-Max có hiệu suất suy luận gần với Pro khi có đủ ngân sách suy nghĩ, nhưng bị hạn chế bởi quy mô tham số trong các tác vụ agent phức tạp và kiến thức thuần túy. Trọng số được lưu trữ với độ chính xác hỗn hợp FP4+FP8. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim