Percepatan pra-pelatihan 2 hingga 3 kali lipat, solusi baru Nous TST terjebak dalam kontroversi "tabrakan"

robot
Pembuatan abstrak sedang berlangsung

ME News Berita, 14 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, Nous Research merilis skema pelatihan pra-pelatihan model besar baru yang disebut pelatihan bertumpuk token (TST). Skema ini dengan mengemas dan mengompresi token bertetangga di awal pelatihan, dapat mempercepat waktu pra-pelatihan sebanyak 2 hingga 3 kali lipat dengan jumlah perhitungan yang sama. TST terdiri dari dua tahap. Dalam 20% hingga 40% awal pelatihan, model tidak lagi membaca token satu per satu, melainkan mengemas token bertetangga dan menghitung rata-ratanya sebagai input, dan di bagian output memprediksi token apa saja yang termasuk dalam paket berikutnya (tanpa memperhitungkan urutan internal). Setelah itu, model kembali ke prediksi token berikutnya secara konvensional. Karena arsitektur dasar tidak diubah, model yang dihasilkan saat inferensi sama persis dengan model standar. Metode ini telah terbukti pada model MoE dengan 100 miliar parameter tertinggi. Esensi dari skema ini adalah “menggunakan data untuk mengubah kekuatan komputasi”, dengan mempercepat konsumsi korpus untuk mengurangi waktu komputasi. Jika di masa depan teks berkualitas tinggi habis, karakter akselerasi ini dalam mengonsumsi data mungkin menjadi kelemahan. Selain itu, beberapa jam setelah publikasi makalah, seorang pembaca menunjukkan bahwa mekanisme TST sangat mirip dengan karya lama yang dirilis pada 2024 berjudul “Beyond Next Token Prediction”. Tim penulis kemudian mengakui di Hugging Face bahwa ini adalah “penelitian konvergen yang tidak diinginkan (convergent research)”, dan berjanji akan memperbarui makalah dengan kutipan tambahan. (Sumber: BlockBeats)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan