Tencent Hun Yuan lần này đã đưa mô hình LLM và mô hình khuếch tán vào cùng một khung học tăng cường, hai thuật toán flow-dppo và drpo cùng lúc ra mắt, lộ trình công nghệ khá táo bạo.

Xem bản gốc
CoinNetwork
Tin tức từ CoinWorld, Tencent Hùnyuán mở nguồn UniRL, tích hợp mô hình ngôn ngữ lớn và mô hình khuếch tán vào cùng một khung đào tạo học tăng cường, cho phép các mô hình sinh văn bản, ngôn ngữ thị giác, hình ảnh và video chia sẻ vòng lặp đào tạo thống nhất. Đối với mô hình phù hợp khuếch tán và mô hình phù hợp luồng, nhóm Hùnyuán giới thiệu thuật toán flow-dppo, sử dụng đặc tính phân phối Gaussian của chiến lược từng bước của mô hình phù hợp luồng để trực tiếp ràng buộc cập nhật chiến lược bằng KL divergence, và thông qua mặt nạ phân kỳ không đối xứng để tránh mô hình lệch quá xa, duy trì hội tụ ổn định. Đối với mô hình ngôn ngữ lớn, nhóm đồng thời giới thiệu thuật toán drpo, đưa vào phần bù lợi thế trọng số thứ hai thay thế cắt cứng, đảm bảo mô hình vẫn nhận được tín hiệu điều chỉnh gradient liên tục khi lệch khỏi phân phối mục tiêu.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim