Yifan Zhang tiết lộ thông số kỹ thuật đầy đủ của DeepSeek V4: 1.6T tham số, 384 chuyên gia kích hoạt 6 cái

robot
Đang tạo bản tóm tắt

Theo giám sát Beating, tiến sĩ sinh viên Princeton Yifan Zhang đã cập nhật chi tiết kỹ thuật của DeepSeek V4 trên X.
Anh ấy đã thông báo vào ngày 19 tháng 4 về “V4 tuần tới” và liệt kê tên ba thành phần kiến trúc, tối nay đã cung cấp bảng tham số đầy đủ, đồng thời lần đầu tiên tiết lộ có một phiên bản nhẹ V4-Lite với 285 tỷ tham số.

Tổng tham số của V4 là 1.6T.
Cơ chế chú ý là DSA2, kết hợp hai phương pháp chú ý thưa Sparse Attention mà DeepSeek đã sử dụng trong V3.2 là DSA (DeepSeek Sparse Attention) và NSA (Native Sparse Attention) được đề xuất trong bài báo đầu năm nay, head-dim 512, phối hợp với Sparse MQA và SWA (chú ý cửa sổ trượt).
Lớp MoE gồm 384 chuyên gia, mỗi lần kích hoạt 6, sử dụng Fused MoE Mega-Kernel.
Kết nối dư được duy trì bằng Hyper-Connections.

Các chi tiết lần đầu tiết lộ về phía huấn luyện bao gồm:
Bộ tối ưu hóa dùng Muon (một loại tối ưu hóa ma trận áp dụng phương pháp Newton-Schulz để orthogonal hóa trong cập nhật động lượng),
Chiều dài ngữ cảnh tiền huấn luyện 32K,
Trong giai đoạn học tăng cường dùng GRPO và thêm điều chỉnh KL divergence.
Chiều dài ngữ cảnh cuối cùng mở rộng đến 1 triệu.
Chế độ là văn bản thuần túy.

Zhang không đảm nhiệm vị trí tại DeepSeek, phía chính thức của DeepSeek chưa phản hồi về các thông tin trên.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim