Tiến hóa sau đào tạo trong V4: OPD thay thế RL hỗn hợp, chưng cất nhiều mô hình chuyên gia thành một

Theo giám sát của Beating, phương pháp sau đào tạo của DeepSeek V4 đã trải qua những thay đổi đáng kể: giai đoạn RL hỗn hợp của V3.2 đã hoàn toàn được thay thế bằng On-Policy Distillation (OPD). Quá trình mới gồm hai bước. Trong bước đầu tiên, các mô hình chuyên gia lĩnh vực được đào tạo trong các lĩnh vực như toán học, mã hóa, hành vi tác nhân, và theo dõi hướng dẫn, dựa trên quy trình V3.2. Mỗi chuyên gia trải qua tinh chỉnh sau đó là học tăng cường sử dụng GRPO. Trong bước thứ hai, một hệ thống nhiều giáo viên OPD tổng hợp khả năng của hơn mười chuyên gia thành một mô hình thống nhất: học sinh thực hiện phân kỳ KL ngược lại logit dựa trên toàn bộ từ vựng cho từng giáo viên dựa trên các quỹ đạo do chính nó tạo ra, căn chỉnh logits để hợp nhất nhiều trọng số chuyên gia vào một không gian tham số thống nhất, từ đó tránh xung đột khả năng thường thấy trong việc hợp nhất trọng số truyền thống và RL hỗn hợp. Báo cáo cũng giới thiệu Mô hình Phần thưởng Sinh tạo (GRM): đối với các nhiệm vụ khó xác thực bằng quy tắc, thay vì huấn luyện một mô hình phần thưởng scalar truyền thống, dữ liệu RL được hướng dẫn bởi các tiêu chí để huấn luyện GRM, cho phép mạng diễn viên đồng thời tạo ra và đánh giá, giúp mở rộng khả năng cho các nhiệm vụ phức tạp với một lượng nhỏ chú thích đa dạng của con người.

DEEPSEEK-1,94%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim