Nghiên cứu viên của DeepMind suy đoán lý do hoãn DeepSeek V4: dữ liệu huấn luyện tăng gấp đôi lên 33T gây ra sự không ổn định nghiêm trọng

Theo giám sát Beating, báo cáo kỹ thuật của DeepSeek V4 tiết lộ rằng V4-Flash và V4-Pro lần lượt được tiền huấn luyện trên 32T và 33T tokens, gấp đôi so với khoảng 15T tokens của V3.
Báo cáo thừa nhận rằng trong quá trình huấn luyện đã gặp phải “những thách thức không ổn định đáng kể”, các đợt spike loss (tăng đột ngột của mất mát huấn luyện) lặp đi lặp lại, nguyên nhân là do các giá trị ngoại lai trong lớp MoE, cơ chế định tuyến còn làm gia tăng các giá trị ngoại lai này, việc quay trở lại đơn giản không thể giải quyết triệt để.

DeepSeek đã tìm ra hai phương án và đã áp dụng vào huấn luyện thực tế: Định tuyến dự đoán (Anticipatory Routing), tách riêng tính toán chỉ mục định tuyến khỏi cập nhật mạng chính, chỉ tự động kích hoạt khi phát hiện spike loss, chi phí bổ sung khoảng 20%; Chặn SwiGLU (SwiGLU Clamping), giới hạn giá trị kích hoạt trong phạm vi cố định để trực tiếp kiểm soát các giá trị ngoại lai.
Báo cáo cho biết cả hai đều có hiệu quả, nhưng thừa nhận “nguyên lý nền tảng vẫn chưa được hiểu rõ đầy đủ”.

Các nhà nghiên cứu của Google DeepMind, Susan Zhang (trước đây làm việc tại Meta AI và OpenAI), bình luận rằng sự không ổn định gây ra sau khi tăng gấp đôi dữ liệu huấn luyện “giải thích cho sự trì hoãn”, mô tả hai phương án này như “băng dán vết thương”, đồng thời khen ngợi độ minh bạch công nghệ của DeepSeek.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim