Tencent Hunyuan merilis UniRL: Infrastruktur Pembelajaran Penguatan Multimodal Terpadu

robot
Pembuatan abstrak sedang berlangsung
ME AI Pesan, Tencent Hunyuan meluncurkan UniRL, sebuah infrastruktur pembelajaran penguatan yang mendukung model multimodal terpadu, dan merilis dua algoritma baru DRPO dan Flow-DPPO. UniRL melalui satu siklus pelatihan pasca (pembuatan→penilaian→keunggulan→pembaruan→sinkronisasi) mencakup model pencocokan difusi/stream, LLM/VLM dan model multimodal terpadu (seperti Hunyuan-Image 3 dan Bagel). Model dan algoritma sebagai sumbu terpisah, memungkinkan kombinasi model×algoritma untuk cakupan yang luas. Kerangka kerja mendukung mesin rollout yang dapat dipasang (sisi pelatihan/SGLang/vLLM-Omni), partisi FSDP2 dan tiga mode deployment. FlowDPPO memperkenalkan strategi optimisasi wilayah kepercayaan berbasis distribusi yang tepat untuk model aliran/difusi; DRPO menyediakan metode regularisasi kuadratik berbobot keunggulan yang halus untuk RL LLM. Kode telah dirilis sebagai sumber terbuka. (Sumber: AiHot)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan