Mô hình mã nguồn mở mạnh nhất deepseek v4 cuối cùng đã ra mắt!
Mô hình 1,6 nghìn tỷ tham số, giấy phép MIT, bộ nhớ hiển thị văn bản dài giảm xuống còn một phần mười so với V3.2

robot
Đang tạo bản tóm tắt

Theo giám sát Beating, phiên bản xem trước dòng DeepSeek mã nguồn mở V4, giấy phép MIT, trọng số đã có trên Hugging Face và ModelScope. Dòng này gồm hai mô hình MoE: V4-Pro tổng tham số 1.6T, kích hoạt mỗi token 49B (490 tỷ); V4-Flash tổng tham số 284B (2840 tỷ), kích hoạt 13B (130 tỷ). Cả hai đều hỗ trợ ngữ cảnh 1 triệu token.

Ba nâng cấp kiến trúc: cơ chế chú ý hỗn hợp (chú ý thắt chặt r sparse CSA + chú ý nặng nề n HCA) giảm đáng kể chi phí ngữ cảnh dài, trong ngữ cảnh 1 triệu token, FLOPs suy luận của V4-Pro chỉ bằng 27% của V3.2, bộ đệm KV (lưu trữ thông tin lịch sử trong quá trình suy luận) chỉ bằng 10% của V3.2; ràng buộc hình dạng siêu kết nối mHC thay thế kết nối residual truyền thống, tăng cường độ ổn định của truyền tín hiệu qua các lớp; huấn luyện sử dụng bộ tối ưu Muon để tăng tốc hội tụ. Dữ liệu tiền huấn luyện vượt quá 32T token.

Huấn luyện sau hai giai đoạn: đầu tiên dùng SFT và GRPO để huấn luyện các chuyên gia trong từng lĩnh vực, sau đó dùng phân phối trực tuyến để hợp nhất thành một mô hình duy nhất. V4-Pro-Max (chế độ mạnh nhất để suy luận) tự xưng là mô hình mã nguồn mở mạnh nhất hiện nay, chuẩn mã hóa đạt đẳng cấp hàng đầu, độ trễ suy luận và nhiệm vụ agent so với các mô hình tiên tiến đóng nguồn đã giảm rõ rệt. V4-Flash-Max sau khi có đủ ngân sách suy nghĩ, khả năng suy luận gần như Pro, nhưng bị hạn chế về quy mô tham số đối với kiến thức thuần túy và nhiệm vụ agent phức tạp. Trọng số được lưu trữ bằng độ chính xác hỗn hợp FP4+FP8.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim