Luo Fuli: Model Besar Masuk Era Pasca-Pelatihan, Tim-Tim Teratas Capai Rasio Komputasi 1:1 untuk Pra-Pelatihan dan Pasca-Pelatihan

Menurut pemantauan oleh Dongcha Beating, Luo Fuli, kepala tim model besar Xiaomi, menunjukkan bahwa kompetisi dalam model besar telah bergeser dari era Chat yang didominasi pelatihan awal ke era Agen yang didominasi pelatihan pasca. Titik kompetitif inti saat ini adalah ‘bagaimana cara secara efektif meningkatkan pembelajaran penguatan (RL) pada Agen.’ Pergeseran paradigma ini secara langsung menyebabkan restrukturisasi alokasi sumber daya komputasi. Luo mengungkapkan bahwa selama era Chat, rasio komputasi untuk penelitian, pelatihan awal, dan pasca pelatihan adalah sekitar 3:5:1; sedangkan di era Agen saat ini, rasio alokasi komputasi yang wajar menjadi 3:1:1, menunjukkan bahwa investasi komputasi untuk pelatihan awal dan pasca pelatihan sekarang hampir sama, dengan tim model teratas mencapai rasio 1:1 dalam investasi mereka untuk kedua bidang ini. Selain itu, kebutuhan untuk arsitektur sistem telah mengalami perubahan signifikan. Sebelumnya, infrastruktur RL terutama berpusat pada ‘mesin inferensi model’ yang menangani perhitungan teks murni; sekarang, infrastruktur harus berpusat pada ‘Agen,’ mendukung penjadwalan kluster heterogen dan mentoleransi ketidakpastian bahwa Agen dapat terganggu dalam alur kerja yang kompleks karena berbagai faktor yang tidak dapat dikendalikan.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan