Tencent Hun Yuan kali ini memasukkan model LLM dan model difusi ke dalam satu kerangka pembelajaran penguatan, dengan algoritma ganda flow-dppo dan drpo diluncurkan bersamaan, jalur teknologi cukup berani untuk dipikirkan

Lihat Asli
CoinNetwork
Berita dari Coinjie.com, Tencent Hunyuan merilis open source UniRL, menggabungkan model bahasa besar dan model difusi ke dalam kerangka pelatihan reinforcement learning yang sama, memungkinkan model generasi teks, bahasa visual, gambar, dan video berbagi siklus pelatihan yang sama. Untuk model difusi dan model pencocokan aliran, tim Hunyuan meluncurkan algoritma flow-dppo, memanfaatkan sifat distribusi Gaussian dari strategi setiap langkah model pencocokan aliran, secara langsung menggunakan batasan KL divergence untuk memperbarui strategi, dan melalui masker divergensi tidak simetris untuk menghindari model menyimpang terlalu jauh, menjaga konvergensi yang stabil. Untuk model bahasa besar, tim secara bersamaan meluncurkan algoritma drpo, memperkenalkan regularisasi kuadratik berbobot keuntungan sebagai pengganti pemotongan keras, memastikan model tetap mendapatkan sinyal koreksi gradien kontinu saat menyimpang dari distribusi target.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan