Lofli: Model besar memasuki era pasca pelatihan, tim terkemuka mencapai rasio kekuatan komputasi pra-pelatihan dan pasca-pelatihan sebesar 1:1

robot
Pembuatan abstrak sedang berlangsung

Berita ME News, 24 April (UTC+8), menurut pemantauan Beating dari Dongcha, kepala tim model besar Xiaomi Luo Fuli menunjukkan bahwa kompetisi model besar telah beralih dari era Chat yang didominasi pra-pelatihan ke era Agen yang didominasi pasca-pelatihan (Post-train). Titik kompetisi utama saat ini adalah “bagaimana melakukan skala pembelajaran penguatan (RL) yang baik pada Agen”. Perubahan paradigma ini secara langsung menyebabkan rekonstruksi alokasi daya komputasi. Luo Fuli mengungkapkan bahwa pada era Chat, proporsi daya komputasi untuk penelitian, pra-pelatihan, dan pasca-pelatihan adalah sekitar 3:5:1; sementara di era Agen saat ini, proporsi alokasi daya komputasi yang wajar menjadi 3:1:1, yaitu investasi daya komputasi untuk pra-pelatihan dan pasca-pelatihan sudah hampir seimbang, dan saat ini tim model terkemuka telah mencapai rasio 1:1 dalam kedua bidang tersebut. Pada saat yang sama, tuntutan arsitektur sistem juga mengalami perubahan besar. Infrastruktur RL sebelumnya terutama berpusat pada “mesin inferensi model” yang menangani perhitungan teks murni; sekarang infrastruktur harus berpusat pada “Agen”, mendukung penjadwalan klaster heterogen, dan mampu menoleransi ketidakpastian karena gangguan dalam alur kerja yang kompleks akibat faktor-faktor yang tidak dapat dikendalikan. (Sumber: BlockBeats)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan