Pendapat: Distil API hanyalah batu loncatan untuk RL, GLM 5.2 iterasi mandiri dapat sepenuhnya membebaskan ketergantungan pada model Amerika

ME AI Pesan, menurut pemantauan Beating, insinyur perangkat lunak TPU Google Patrick Toulme menunjukkan bahwa ada kesalahpahaman di luar sana tentang klaim bahwa GLM 5.2 mengejar kesetaraan dengan Opus melalui distilasi. Tantangan utama dalam pelatihan model besar untuk tugas pengkodean agen cerdas adalah "dilema gradien nol", yaitu jika model tidak dapat menghasilkan jalur operasi yang benar pada tahap awal, pembelajaran penguatan tidak akan mendapatkan sinyal gradien untuk memulai pembaruan parameter. Peran distilasi Claude atau GPT-5.5 hanyalah menyediakan jawaban benih selama tahap inisialisasi dingin untuk mengatasi dilema gradien nol. Setelah model melewati ambang inisialisasi dingin, peningkatan kinerja selanjutnya tidak lagi bergantung pada distilasi, melainkan sepenuhnya mengandalkan algoritma pendakian pembelajaran penguatan untuk evolusi diri. Toulme menekankan bahwa GLM 5.2 sudah mampu secara mandiri menghasilkan jalur keberhasilan, dan sepenuhnya dapat melalui iterasi mandiri dengan pembelajaran penguatan ke tingkat yang lebih tinggi, secara menyeluruh melepaskan ketergantungan pada model besar Amerika. Pendiri Redis, Salvatore Sanfilippo, menambahkan kemungkinan jalur lain: meskipun memperkenalkan mode penalaran melalui model berkinerja tinggi (distilasi) sangat berguna untuk mendapatkan sinyal RL yang lebih baik, praktik DeepSeek R0 telah membuktikan bahwa bahkan dalam inisialisasi dingin murni tanpa penanaman distilasi sama sekali, pembelajaran penguatan tetap dapat berjalan secara mandiri dan mencapai terobosan. Pada saat yang sama, dia berpendapat bahwa jika harus melewati ambang inisialisasi dingin, pengembangan model besar sepenuhnya dapat menggunakan model sumber terbuka domestik seperti DeepSeek-v3.2 untuk fine-tuning, bukan harus bergantung pada API Amerika. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar