Trên X, Tiến sĩ Princeton Zhang tiết lộ các điểm chính của DeepSeek V4: V4/V4-Lite có lần lượt 285 tỷ và 1,6 nghìn tỷ tham số, sử dụng chú ý thưa DSA2 (DSA+NSA), head-dim512, Sparse MQA và SWA, chuyên gia MoE 384, kích hoạt 6 lần mỗi lần, kết hợp với Mega-Kernel hợp nhất và Hyper-Connections. Được đào tạo bằng bộ tối ưu Muon, bối cảnh 32K, giai đoạn RL điều chỉnh bằng GRPO+KL, cuối cùng mở rộng bối cảnh lên đến 1 triệu. Định dạng là văn bản thuần túy; Zhang không phải nhân viên của DeepSeek, phía chính thức chưa phản hồi.

MeNews

2026-04-22 16:20:18

Đang tạo bản tóm tắt

Thông tin ME News, ngày 22 tháng 4 (UTC+8), theo theo dõi của Beating, nghiên cứu sinh Princeton Yifan Zhang đã cập nhật chi tiết kỹ thuật của DeepSeek V4 trên X. Anh đã thông báo vào ngày 19 tháng 4 về “V4 tuần tới” và liệt kê tên ba thành phần kiến trúc, tối nay đã cung cấp bảng tham số đầy đủ, đồng thời lần đầu tiết lộ có một phiên bản nhẹ V4-Lite với 285 tỷ tham số. Tổng tham số của V4 là 1.6 nghìn tỷ. Cơ chế chú ý là DSA2, kết hợp hai phương pháp chú ý thưa của DeepSeek trước đây trong V3.2 là DSA (DeepSeek Sparse Attention) và NSA (Native Sparse Attention) được đề xuất trong bài báo đầu năm nay, head-dim 512, phối hợp với Sparse MQA và SWA (chú ý cửa sổ trượt). Tầng MoE gồm 384 chuyên gia, mỗi lần kích hoạt 6, sử dụng Fused MoE Mega-Kernel. Kết nối residual tiếp tục sử dụng Hyper-Connections. Các chi tiết lần đầu tiết lộ trong quá trình đào tạo bao gồm: bộ tối ưu Muon (một bộ tối ưu ma trận áp dụng phương pháp Newton-Schulz để orthogonal hóa trong cập nhật động lượng), độ dài ngữ cảnh tiền huấn luyện 32K, giai đoạn học tăng cường dùng GRPO và thêm điều chỉnh KL divergence. Độ dài ngữ cảnh cuối cùng mở rộng đến 1 triệu. Modal là văn bản thuần túy. Zhang không giữ chức vụ tại DeepSeek, phía chính thức của DeepSeek chưa phản hồi về các thông tin trên. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingKingPK
262.18K Phổ biến
#
CryptoMarketSeesVolatility
321.34K Phổ biến
#
IsraelStrikesIranBTCPlunges
33.82K Phổ biến
#
rsETHAttackUpdate
112.81K Phổ biến
#
US-IranTalksStall
502.87K Phổ biến

Ghim

sơ đồ trang web

Yifan Zhang tiết lộ thông số kỹ thuật đầy đủ của DeepSeek V4: 1.6T tham số, 384 chuyên gia kích hoạt 6 cái

Chủ đề thịnh hành

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Ghim