Pembaruan generasi pelatihan lanjutan V4: OPD menggantikan RL campuran, sepuluh lebih model ahli disuling menjadi satu.

robot
Pembuatan abstrak sedang berlangsung
ME News berita, 24 April (UTC+8), menurut pantauan Dongcha Beating, metodologi pasca-pelatihan DeepSeek V4 mengalami perubahan besar: fase mixed RL dari V3.2 sepenuhnya digantikan oleh On-Policy Distillation (OPD, distilasi kebijakan online). Proses baru terbagi menjadi dua langkah. Langkah pertama, untuk bidang seperti matematika, kode, Agen, pengikut instruksi, model ahli bidang masing-masing dilatih berdasarkan pipeline V3.2, setiap ahli terlebih dahulu menjalani fine-tuning kemudian menggunakan GRPO untuk pembelajaran penguatan. Langkah kedua, menggunakan OPD multi-guru untuk mendistilasi kemampuan lebih dari sepuluh ahli ke dalam satu model terpadu: siswa menghasilkan trajektori sendiri, kemudian melakukan distilasi logit kosakata penuh dengan reverse KL divergence pada setiap guru, menggabungkan bobot beberapa ahli ke dalam ruang parameter terpadu melalui penyelarasan level logit, menghindari konflik kemampuan yang umum terjadi pada weight merging tradisional dan mixed RL. Laporan juga mengusulkan Generative Reward Model (GRM, model reward generatif): untuk tugas yang sulit diverifikasi dengan aturan, tidak lagi melatih model reward skalar tradisional, melainkan melatih GRM dengan data RL yang dipandu rubrik, sehingga jaringan aktor sekaligus menanggung kemampuan generasi dan penilaian, dengan sedikit anotasi manual yang beragam dapat digeneralisasi ke tugas kompleks. (Sumber: BlockBeats)
DEEPSEEK-2,53%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan