📰 【Mô hình mã nguồn mở mạnh nhất DeepSeek V4 cuối cùng đã ra mắt! Mô hình 1,6 nghìn tỷ tham số, giấy phép MIT, nén bộ nhớ cho văn bản dài xuống còn một phần mười của V3.2】


Theo theo dõi của động thái Beating, phiên bản xem trước của dòng DeepSeek mã nguồn mở V4, sử dụng giấy phép MIT, trọng số đã có trên Hugging Face và ModelScope. Dòng này gồm hai mô hình MoE: V4-Pro tổng tham số 1.6T, kích hoạt 49B mỗi token (490 tỷ); V4-Flash tổng tham số 284B (2840 tỷ), kích hoạt 13B (130 tỷ). Cả hai đều hỗ trợ ngữ cảnh 1 triệu token. Cấu trúc có ba nâng cấp: cơ chế chú ý hỗn hợp (tối ưu hóa chú ý thưa CSA + chú ý nén nặng HCA) giảm đáng kể chi phí cho ngữ cảnh dài, trong ngữ cảnh 1 triệu V4...

Anh em ơi, DeepSeek lại làm lớn rồi, mô hình mã nguồn mở V4 trực tiếp 1,6 nghìn tỷ tham số, giấy phép MIT dùng thoải mái, bộ nhớ cho văn bản dài nén xuống còn một phần mười của V3.2. Đứa này thật dám làm, đem mô hình lớn như rau bán ngoài chợ, các nhà đầu tư nhỏ chơi AI nhanh chân lên, đừng như năm xưa bỏ lỡ vua coin mà bỏ lỡ cơ hội công nghệ này.👇👇👇👇👇
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim