UCLA+Princeton membuka sumber SDPG, mekanisme pengajar internal memungkinkan agen belajar sendiri, penalaran matematika dan perencanaan multi-langkah langsung mengalahkan GRPO

Lihat Asli
CoinNetwork
Berita dari Coinjie.com, algoritma SDPG dikembangkan secara open-source oleh tim Liu Yifeng, Zhang Shiyuan dari Universitas California, Los Angeles (UCLA), dan Zhang Yifan dari Universitas Princeton, bertujuan untuk mengatasi hambatan evolusi diri pada agen cerdas ketika tidak ada panduan dari model pengajar eksternal. Algoritma ini melalui mekanisme pengajaran internal, memanfaatkan informasi istimewa untuk menghasilkan jalur penalaran berkualitas tinggi, meningkatkan efisiensi pelatihan dan tingkat keberhasilan dalam pengambilan keputusan multi-langkah. Data evaluasi menunjukkan bahwa SDPG berkinerja lebih baik daripada GRPO dan berbagai algoritma baseline distilasi mandiri dalam tugas penalaran matematika dan perencanaan multi-langkah.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan