Nhà nghiên cứu của DeepMind suy đoán nguyên nhân trì hoãn DeepSeek V4: Dữ liệu đào tạo tăng gấp đôi lên 33T gây ra sự bất ổn định nghiêm trọng

robot
Đang tạo bản tóm tắt
ME News tin tức, ngày 24 tháng 4 (UTC+8), theo giám sát của Động Sát Beating, báo cáo kỹ thuật DeepSeek V4 tiết lộ rằng V4-Flash và V4-Pro được huấn luyện trước trên 32T và 33T token tương ứng, gấp đôi so với khoảng 15T token của V3.
Báo cáo thừa nhận rằng trong quá trình huấn luyện "đã gặp phải thách thức bất ổn đáng kể", loss spike (mất mát huấn luyện tăng đột biến) xuất hiện nhiều lần, nguyên nhân gốc rễ nằm ở các giá trị ngoại lai của lớp MoE, cơ chế định tuyến còn làm trầm trọng thêm các giá trị ngoại lai này, việc khôi phục đơn giản không thể giải quyết triệt để.
DeepSeek đã tìm ra hai giải pháp và đã áp dụng vào huấn luyện thực tế: Anticipatory Routing (định tuyến dự đoán), tách rời tính toán chỉ số định tuyến khỏi cập nhật mạng chính, chỉ tự động kích hoạt khi phát hiện loss spike, chi phí bổ sung khoảng 20%; SwiGLU Clamping, kẹp giá trị kích hoạt vào một phạm vi cố định để trực tiếp triệt tiêu các giá trị ngoại lai.
Báo cáo cho biết cả hai đều hiệu quả, nhưng thừa nhận "nguyên lý cơ bản chưa được hiểu đầy đủ".
Nhà nghiên cứu Susan Zhang của Google DeepMind (từng làm việc tại Meta AI và OpenAI) bình luận rằng sự bất ổn do tăng gấp đôi dữ liệu huấn luyện "giải thích cho sự chậm trễ", mô tả hai giải pháp này như "băng cá nhân", đồng thời khẳng định tính minh bạch kỹ thuật của DeepSeek.
(Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim