V4 sau đào tạo thay thế: OPD thay thế RL hỗn hợp, mười mấy mô hình chuyên gia chưng cất thành một.

robot
Đang tạo bản tóm tắt
ME News tin tức, ngày 24 tháng 4 (UTC+8), theo giám sát của Dongcha Beating, phương pháp luận hậu huấn luyện của DeepSeek V4 đã có thay đổi lớn: giai đoạn mixed RL của V3.2 được thay thế hoàn toàn bằng On-Policy Distillation (OPD, chưng cất chính sách trực tuyến). Quy trình mới gồm hai bước. Bước một, đối với các lĩnh vực như toán học, mã nguồn, Agent, chỉ thị theo dõi, dựa trên pipeline V3.2, huấn luyện riêng các mô hình chuyên gia lĩnh vực, mỗi chuyên gia trước tiên được tinh chỉnh rồi sử dụng GRPO để học tăng cường. Bước hai, sử dụng đa giáo viên OPD để chưng cất khả năng của hơn mười chuyên gia vào một mô hình thống nhất: học sinh, trên quỹ đạo do chính mình tạo ra, thực hiện chưng cất logit toàn bộ từ vựng với độ phân kỳ reverse KL cho mỗi giáo viên, thông qua căn chỉnh ở cấp độ logit, kết hợp trọng số của nhiều chuyên gia vào không gian tham số thống nhất, tránh xung đột năng lực thường gặp trong weight merging truyền thống và mixed RL. Báo cáo còn đề xuất Generative Reward Model (GRM, mô hình phần thưởng sinh tạo): đối với các nhiệm vụ khó xác minh bằng quy tắc, không còn huấn luyện mô hình phần thưởng vô hướng truyền thống, mà sử dụng dữ liệu RL dẫn dắt bằng rubric để huấn luyện GRM, cho mạng actor đồng thời đảm nhận khả năng sinh tạo và đánh giá, chỉ với một lượng nhỏ dữ liệu gán nhãn thủ công đa dạng là có thể tổng quát hóa cho các nhiệm vụ phức tạp. (Nguồn: BlockBeats)
DEEPSEEK-3,86%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim