DeepSeek công bố bản xem trước dòng V4, giấy phép MIT, trọng số đã có trên HuggingFace và ModelScope. V4-Pro1.6T, V4-Flash284B, đều hỗ trợ ngữ cảnh khoảng 1 triệu, kích hoạt lần lượt là 49B và 13B. Nâng cấp thành chú ý hỗn hợp CSA+HCA, siêu liên kết mHC, tối ưu Muon, dữ liệu huấn luyện vượt quá 32T. Hai giai đoạn hậu huấn luyện: SFT/GRPO đào tạo chuyên gia lĩnh vực sau đó tinh chế trực tuyến hợp nhất. Pro-Max là mã nguồn mở mạnh nhất, suy luận đã gần tiên tiến; Flash-Max trong phạm vi ngân sách suy nghĩ đầy đủ cũng gần Pro, nhưng quy mô bị hạn chế. Trọng số sử dụng độ chính xác hỗn hợp FP4+FP8.

BlockBeatNews

2026-04-24 03:22:40

Đang tạo bản tóm tắt

Theo giám sát Beating, phiên bản xem trước dòng DeepSeek mã nguồn mở V4, giấy phép MIT, trọng số đã có trên Hugging Face và ModelScope. Dòng này gồm hai mô hình MoE: V4-Pro tổng tham số 1.6T, kích hoạt mỗi token 49B (490 tỷ); V4-Flash tổng tham số 284B (2840 tỷ), kích hoạt 13B (130 tỷ). Cả hai đều hỗ trợ ngữ cảnh 1 triệu token.

Ba nâng cấp kiến trúc: cơ chế chú ý hỗn hợp (chú ý thắt chặt r sparse CSA + chú ý nặng nề n HCA) giảm đáng kể chi phí ngữ cảnh dài, trong ngữ cảnh 1 triệu token, FLOPs suy luận của V4-Pro chỉ bằng 27% của V3.2, bộ đệm KV (lưu trữ thông tin lịch sử trong quá trình suy luận) chỉ bằng 10% của V3.2; ràng buộc hình dạng siêu kết nối mHC thay thế kết nối residual truyền thống, tăng cường độ ổn định của truyền tín hiệu qua các lớp; huấn luyện sử dụng bộ tối ưu Muon để tăng tốc hội tụ. Dữ liệu tiền huấn luyện vượt quá 32T token.

Huấn luyện sau hai giai đoạn: đầu tiên dùng SFT và GRPO để huấn luyện các chuyên gia trong từng lĩnh vực, sau đó dùng phân phối trực tuyến để hợp nhất thành một mô hình duy nhất. V4-Pro-Max (chế độ mạnh nhất để suy luận) tự xưng là mô hình mã nguồn mở mạnh nhất hiện nay, chuẩn mã hóa đạt đẳng cấp hàng đầu, độ trễ suy luận và nhiệm vụ agent so với các mô hình tiên tiến đóng nguồn đã giảm rõ rệt. V4-Flash-Max sau khi có đủ ngân sách suy nghĩ, khả năng suy luận gần như Pro, nhưng bị hạn chế về quy mô tham số đối với kiến thức thuần túy và nhiệm vụ agent phức tạp. Trọng số được lưu trữ bằng độ chính xác hỗn hợp FP4+FP8.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingChallengeShare8MUSDT
835.48K Phổ biến
#
CryptoMarketSeesVolatility
204.92K Phổ biến
#
IsraelStrikesIranBTCPlunges
30.82K Phổ biến
#
rsETHAttackUpdate
78.99K Phổ biến
#
US-IranTalksStall
28.52K Phổ biến

Ghim

sơ đồ trang web

Mô hình mã nguồn mở mạnh nhất deepseek v4 cuối cùng đã ra mắt! Mô hình 1,6 nghìn tỷ tham số, giấy phép MIT, bộ nhớ hiển thị văn bản dài giảm xuống còn một phần mười so với V3.2

Chủ đề thịnh hành

WCTCTradingChallengeShare8MUSDT

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Ghim

Mô hình mã nguồn mở mạnh nhất deepseek v4 cuối cùng đã ra mắt!
Mô hình 1,6 nghìn tỷ tham số, giấy phép MIT, bộ nhớ hiển thị văn bản dài giảm xuống còn một phần mười so với V3.2