罗福莉:Model besar memasuki era pasca-pelatihan, rasio daya komputasi pra-pelatihan dan pasca-pelatihan tim papan atas mencapai 1:1.

robot
Pembuatan abstrak sedang berlangsung
ME News berita, 24 April (UTC+8), menurut pemantauan Dongcha Beating, Luo Fuli, kepala tim model besar Xiaomi, menunjukkan bahwa persaingan model besar telah beralih sepenuhnya dari era Chat yang didominasi pra-pelatihan ke era Agent yang didominasi pasca-pelatihan (Post-train).
Inti persaingan saat ini adalah 「bagaimana melakukan scaling reinforcement learning (RL) dengan baik di Agent」.
Perubahan paradigma ini langsung menyebabkan restrukturisasi alokasi daya komputasi.
Luo Fuli mengungkapkan, di era Chat, rasio daya komputasi untuk penelitian, pra-pelatihan, dan pasca-pelatihan adalah sekitar 3:5:1; sedangkan di era Agent saat ini, rasio alokasi daya komputasi yang wajar berubah menjadi 3:1:1, yaitu investasi daya komputasi untuk pra-pelatihan dan pasca-pelatihan sudah hampir setara, saat ini tim model terkemuka telah mencapai rasio investasi 1:1 untuk kedua hal tersebut.
Pada saat yang sama, persyaratan arsitektur sistem juga mengalami perubahan besar.
Infrastruktur RL di masa lalu terutama berpusat pada 「mesin inferensi model」, menangani perhitungan teks murni; infrastruktur saat ini harus berpusat pada 「Agent」, mendukung penjadwalan klaster heterogen, dan dapat mentoleransi ketidakpastian Agent yang terputus karena berbagai faktor yang tidak dapat dikendalikan dalam alur kerja yang kompleks.
(Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan