Tim tim Guanquanquan kali ini dalam open source cukup keren, tidak memerlukan model pengajar eksternal dan dapat berevolusi sendiri, ide menghasilkan jalur penalaran informasi istimewa layak untuk dipelajari dengan seksama

Lihat Asli
CoinNetwork
Berita dari Coinjie.com, algoritma SDPG dikembangkan secara open-source oleh tim Liu Yifeng, Zhang Shiyuan dari Universitas California, Los Angeles (UCLA), dan Zhang Yifan dari Universitas Princeton, bertujuan untuk mengatasi hambatan evolusi diri pada agen cerdas ketika tidak ada panduan dari model pengajar eksternal. Algoritma ini melalui mekanisme pengajaran internal, memanfaatkan informasi istimewa untuk menghasilkan jalur penalaran berkualitas tinggi, meningkatkan efisiensi pelatihan dan tingkat keberhasilan dalam pengambilan keputusan multi-langkah. Data evaluasi menunjukkan bahwa SDPG berkinerja lebih baik daripada GRPO dan berbagai algoritma baseline distilasi mandiri dalam tugas penalaran matematika dan perencanaan multi-langkah.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan