Nhà nghiên cứu của DeepMind suy đoán về việc trì hoãn DeepSeek V4: Dữ liệu huấn luyện tăng gấp đôi lên 33T gây ra sự không ổn định nghiêm trọng

robot
Đang tạo bản tóm tắt

Theo giám sát của Dongcha Beating, báo cáo kỹ thuật cho DeepSeek V4 tiết lộ rằng V4-Flash và V4-Pro đã được huấn luyện trước trên 32T và 33T token tương ứng, gấp đôi khoảng 15T token được sử dụng trong V3. Báo cáo thừa nhận rằng quá trình huấn luyện gặp phải ‘những thách thức về độ ổn định đáng kể,’ với các lần tăng đột biến mất (tăng đột ngột trong mất mát huấn luyện) do các ngoại lệ trong lớp MoE, và cơ chế định tuyến chính nó làm trầm trọng thêm các ngoại lệ này, khiến việc quay lại đơn giản trở nên không hiệu quả. DeepSeek đã xác định hai giải pháp đã được áp dụng trong huấn luyện thực tế: Định tuyến Dự đoán, tách biệt tính toán chỉ số định tuyến khỏi cập nhật mạng chính và tự động kích hoạt chỉ khi phát hiện mất mát đột biến, gây ra thêm khoảng 20% chi phí; và Giới hạn SwiGLU, giới hạn giá trị kích hoạt trong phạm vi cố định để trực tiếp giảm thiểu các ngoại lệ. Báo cáo cho biết cả hai phương pháp đều hiệu quả nhưng thừa nhận rằng ‘nguyên tắc cơ bản vẫn chưa được hiểu rõ hoàn toàn.’ Nhà nghiên cứu của Google DeepMind, Susan Zhang, người trước đây làm việc tại Meta AI và OpenAI, bình luận rằng sự không ổn định do việc tăng gấp đôi dữ liệu huấn luyện ‘giải thích cho sự chậm trễ,’ mô tả hai giải pháp này là ‘băng dán,’ đồng thời xác nhận tính minh bạch về mặt kỹ thuật của DeepSeek.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim