Tim tim model besar Xiaomi menyatakan bahwa kompetisi telah beralih dari era Chat yang didominasi oleh pra-pelatihan ke era Agen yang didominasi oleh pelatihan lanjutan, inti dari semuanya adalah skalabilitas pembelajaran penguatan pada Agen. Distribusi komputasi berubah dari 3:5:1 (penelitian / pra-pelatihan / pasca-pelatihan) menjadi 3:1:1, dengan investasi di dua bagian awal hampir seimbang, dan tim terkemuka telah mencapai 1:1. Infrastruktur juga beralih dari inti mesin inferensi menjadi inti Agen, yang harus mendukung penjadwalan klaster heterogen dan toleransi terhadap gangguan tak terkendali pada Agen dalam alur kerja.

MeNews

2026-04-24 06:20:36

Pembuatan abstrak sedang berlangsung

Berita ME News, 24 April (UTC+8), menurut pemantauan Beating dari Dongcha, kepala tim model besar Xiaomi Luo Fuli menunjukkan bahwa kompetisi model besar telah beralih dari era Chat yang didominasi pra-pelatihan ke era Agen yang didominasi pasca-pelatihan (Post-train). Titik kompetisi utama saat ini adalah “bagaimana melakukan skala pembelajaran penguatan (RL) yang baik pada Agen”. Perubahan paradigma ini secara langsung menyebabkan rekonstruksi alokasi daya komputasi. Luo Fuli mengungkapkan bahwa pada era Chat, proporsi daya komputasi untuk penelitian, pra-pelatihan, dan pasca-pelatihan adalah sekitar 3:5:1; sementara di era Agen saat ini, proporsi alokasi daya komputasi yang wajar menjadi 3:1:1, yaitu investasi daya komputasi untuk pra-pelatihan dan pasca-pelatihan sudah hampir seimbang, dan saat ini tim model terkemuka telah mencapai rasio 1:1 dalam kedua bidang tersebut. Pada saat yang sama, tuntutan arsitektur sistem juga mengalami perubahan besar. Infrastruktur RL sebelumnya terutama berpusat pada “mesin inferensi model” yang menangani perhitungan teks murni; sekarang infrastruktur harus berpusat pada “Agen”, mendukung penjadwalan klaster heterogen, dan mampu menoleransi ketidakpastian karena gangguan dalam alur kerja yang kompleks akibat faktor-faktor yang tidak dapat dikendalikan. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
WCTCTradingKingPK
136.9K Popularitas
#
CryptoMarketSeesVolatility
204.87K Popularitas
#
IsraelStrikesIranBTCPlunges
30.82K Popularitas
#
rsETHAttackUpdate
59.78K Popularitas
#
US-IranTalksStall
163.75K Popularitas

Sematkan

peta situs

Lofli: Model besar memasuki era pasca pelatihan, tim terkemuka mencapai rasio kekuatan komputasi pra-pelatihan dan pasca-pelatihan sebesar 1:1

Topik Trending

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Sematkan