Tencent Hunyuan phát hành UniRL: Cơ sở hạ tầng học tăng cường đa mô hình thống nhất

robot
Đang tạo bản tóm tắt
ME AI Thông báo, Tencent Hỗn Nguyên ra mắt UniRL, một hạ tầng học tăng cường hỗ trợ mô hình đa phương thức thống nhất, đồng thời phát hành hai thuật toán mới là DRPO và Flow-DPPO. UniRL thông qua một vòng lặp hậu huấn luyện duy nhất (tạo→đánh giá→lợi thế→cập nhật→đồng bộ) bao phủ các mô hình phân tán/đồng bộ luồng, LLM/VLM và mô hình đa phương thức thống nhất (như Hunyuan-Image 3 và Bagel). Mô hình và thuật toán như các trục độc lập, có thể kết hợp mô hình×thuật toán để mở rộng phạm vi. Khung hỗ trợ động cơ rollout có thể tháo rời (phía huấn luyện/SGLang/vLLM-Omni), phân mảnh FSDP2 và ba chế độ triển khai. FlowDPPO giới thiệu chiến lược tối ưu hóa vùng tin cậy dựa trên độ phân kỳ chính xác cho mô hình luồng/phân tán; DRPO cung cấp phương pháp điều chỉnh trọng số lợi thế mượt mà cho RL LLM. Mã nguồn đã được mở.(Nguồn: AiHot)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim