Dilaporkan bahwa Nous Research mengusulkan TST: mengemas dan merata-ratakan token tetangga pada tahap awal pelatihan, tidak membaca token satu per satu selama 20–40% tahap awal, memprediksi token dalam kemasan, kemudian kembali ke prediksi token berikutnya secara konvensional. Arsitektur dasar tidak berubah, telah diverifikasi pada model MoE dengan 10 miliar parameter, waktu pelatihan dapat dipersingkat 2–3 kali lipat, termasuk dalam kategori penggunaan data untuk meningkatkan daya komputasi. Jika teks berkualitas tinggi habis, ketergantungan data mungkin menjadi kelemahan. Sangat mirip dengan 《Beyond Next Token Prediction》, termasuk penelitian yang searah, akan ditambahkan kutipan.

MeNews

2026-05-17 04:00:22

Pembuatan abstrak sedang berlangsung

ME News Berita, 14 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, Nous Research merilis skema pelatihan pra-pelatihan model besar baru yang disebut pelatihan bertumpuk token (TST). Skema ini dengan mengemas dan mengompresi token bertetangga di awal pelatihan, dapat mempercepat waktu pra-pelatihan sebanyak 2 hingga 3 kali lipat dengan jumlah perhitungan yang sama. TST terdiri dari dua tahap. Dalam 20% hingga 40% awal pelatihan, model tidak lagi membaca token satu per satu, melainkan mengemas token bertetangga dan menghitung rata-ratanya sebagai input, dan di bagian output memprediksi token apa saja yang termasuk dalam paket berikutnya (tanpa memperhitungkan urutan internal). Setelah itu, model kembali ke prediksi token berikutnya secara konvensional. Karena arsitektur dasar tidak diubah, model yang dihasilkan saat inferensi sama persis dengan model standar. Metode ini telah terbukti pada model MoE dengan 100 miliar parameter tertinggi. Esensi dari skema ini adalah “menggunakan data untuk mengubah kekuatan komputasi”, dengan mempercepat konsumsi korpus untuk mengurangi waktu komputasi. Jika di masa depan teks berkualitas tinggi habis, karakter akselerasi ini dalam mengonsumsi data mungkin menjadi kelemahan. Selain itu, beberapa jam setelah publikasi makalah, seorang pembaca menunjukkan bahwa mekanisme TST sangat mirip dengan karya lama yang dirilis pada 2024 berjudul “Beyond Next Token Prediction”. Tim penulis kemudian mengakui di Hugging Face bahwa ini adalah “penelitian konvergen yang tidak diinginkan (convergent research)”, dan berjanji akan memperbarui makalah dengan kutipan tambahan. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateSquareMayTradingShare
1.92M Popularitas
#
CLARITYActPassesSenateCommittee
3.58M Popularitas
#
IsraelStrikesIranBTCPlunges
47.3K Popularitas
#
#DailyPolymarketHotspot
969.29K Popularitas
#
BitcoinVShapedReversalBack
227.15M Popularitas

Disematkan

peta situs

Percepatan pra-pelatihan 2 hingga 3 kali lipat, solusi baru Nous TST terjebak dalam kontroversi "tabrakan"

Topik Trending

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Disematkan