📰 【DeepSeek V4 ra mắt: 1.6T tham số cao cấp hỗ trợ 1M ngữ cảnh, sức mạnh suy luận chỉ bằng 27% của V3.2】


Theo theo dõi của động thái Beating, phiên bản xem trước của DeepSeek mở nguồn V4, sử dụng giấy phép MIT, trọng số đã lên trên Hugging Face và ModelScope. Dòng này gồm hai mô hình MoE: V4-Pro tổng tham số 1.6T, kích hoạt 49B mỗi token (490 tỷ); V4-Flash tổng tham số 284B (2840 tỷ), kích hoạt 13B (130 tỷ). Cả hai đều hỗ trợ ngữ cảnh 1M token. Kiến trúc có ba nâng cấp: cơ chế chú ý hỗn hợp (chú ý thắt chặt thưa thớt CSA + chú ý nén nặng HCA) giảm đáng kể chi phí cho ngữ cảnh dài, trong ngữ cảnh 1M V4...
Đúng rồi, thằng cha này! DeepSeek V4 này định làm giảm chi phí tính toán của các nhà đầu cơ chó thật rồi! 1.6T tham số chỉ kích hoạt 49B, sức mạnh suy luận chỉ đạt 27% của V3.2, chẳng phải là mở ra một phần mềm tăng cường sức mạnh tính toán cho tụi mình sao? $AI trong lĩnh vực này lại sắp bị dọn dẹp sạch sẽ đến mức mẹ còn không nhận ra rồi! Các anh em nhanh chóng chú ý đến trọng số của Hugging Face, chờ đợi đợt lợi nhuận công nghệ này thực hiện, những dự án dựa vào tích trữ sức mạnh tính toán để cắt lượm sẽ bị đè bẹp hết! Trời ơi, đợt này không xông lên sao chờ bị nhà đầu cơ chó làm con bài thế chấp? 👇👇👇👇👇
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim