Nous sumber terbuka Lighthouse Attention: satu B200 jalankan 512K percepatan 17 kali

robot
Pembuatan abstrak sedang berlangsung
AIMPACT Pesan, 16 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, Nous Research merilis mekanisme pra-pelatihan konteks panjang Lighthouse Attention secara open source. Saat memproses teks sepanjang 512K pada satu kartu GPU B200, kecepatan komputasi dari solusi ini sekitar 17 kali lebih cepat dibandingkan mekanisme tradisional, dan mencapai percepatan pelatihan end-to-end sebesar 1.4 hingga 1.7 kali pada panjang 98K. Mekanisme perhatian tradisional membutuhkan perhitungan hubungan pasangan kata secara dua arah, sehingga semakin panjang teks, konsumsi daya komputasi akan meningkat secara kuadrat. Lighthouse Attention menggunakan pendekatan seleksi kasar terlebih dahulu kemudian perhitungan detail. Ia akan dengan cepat meninjau ringkasan teks yang dikompres di berbagai tingkat, menilai dan memilih bagian inti untuk dirangkai menjadi teks pendek, lalu langsung diserahkan ke operator efisien FlashAttention yang sudah ada untuk diproses. Karena logika penyaringan ini sepenuhnya dipisahkan dari kernel, pengembang langsung menghemat kerumitan menulis kode dasar, dan tidak perlu menambah tujuan pelatihan tambahan. Solusi percepatan yang menggunakan pendekatan serupa sebelumnya sering kali memiliki efek samping, di mana model terbiasa membaca secara lompat-lompat dan sangat rentan kehilangan kemampuan membaca secara detail per kata. Untuk menghindari jebakan ini, tim pengembang membiarkan model menjalankan sebagian besar proses dalam mode percepatan, dan hanya di akhir pelatihan beralih sebentar ke perhitungan perhatian penuh tradisional untuk penyesuaian. Dalam pengujian pada model dengan 530 juta parameter dan data pelatihan sebanyak 50 miliar token, model yang dilatih dengan cara ini tidak hanya secara signifikan mengurangi waktu, tetapi juga secara keseluruhan menyamai bahkan melampaui performa versi baseline yang dilatih dengan metode tradisional. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 9
  • 2
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
PartiallyMeltedIceCream
· 5jam yang lalu
17 kali percepatan mungkin agak berlebihan, tetapi 98K hanya 1,4-1,7 kali, tampaknya semakin panjang waktu, manfaatnya semakin jelas
Lihat AsliBalas0
ACalmnessWithAHintOfPomelo
· 6jam yang lalu
Ringkasan berlapis-lapis mempersingkat teks pendek lalu membuang FlashAttention, trik teknik ini sangat hebat
Lihat AsliBalas0
GateUser-8ca669fd
· 6jam yang lalu
Lomba konteks panjang memasuki tahap optimisasi rekayasa, lebih menarik daripada parameter tumpukan
Lihat AsliBalas0
TidalShell
· 6jam yang lalu
Pencapaian baseline tradisional yang terlampaui agak mengejutkan, mengira percepatan pasti akan mengorbankan kualitas
Lihat AsliBalas0
GateUser-318a7dc8
· 6jam yang lalu
Dengan 5,3 miliar parameter, verifikasi bisa dilakukan, tim kecil juga bisa mengikuti.
Lihat AsliBalas0
GateUser-d6fb8ff1
· 6jam yang lalu
Tunggu kode dirilis untuk menguji berapa banyak K yang bisa ditanggung oleh 4090 saya
Lihat AsliBalas0
Glass-HeartMarketMaker
· 6jam yang lalu
Menghilangkan tujuan pelatihan tambahan sangat penting, jika tidak, meskipun open source, tidak ada yang mampu melatihnya
Lihat AsliBalas0
OrderbookOtter
· 6jam yang lalu
Nama Lighthouse bagus, pertama menerangi poin utama lalu melihat lebih detail
Lihat AsliBalas0
TokenTinkerTao
· 6jam yang lalu
B200 kartu tunggal 512K, ke depannya biaya menjalankan dokumen panjang RAG secara pribadi akan berkurang
Lihat AsliBalas0
Lihat Lebih Banyak
  • Disematkan