AIMPACT Pesan, 16 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, Nous Research merilis mekanisme pra-pelatihan konteks panjang Lighthouse Attention secara open source. Saat memproses teks sepanjang 512K pada satu kartu GPU B200, kecepatan komputasi dari solusi ini sekitar 17 kali lebih cepat dibandingkan mekanisme tradisional, dan mencapai percepatan pelatihan end-to-end sebesar 1.4 hingga 1.7 kali pada panjang 98K. Mekanisme perhatian tradisional membutuhkan perhitungan hubungan pasangan kata secara dua arah, sehingga semakin panjang teks, konsumsi daya komputasi akan meningkat secara kuadrat. Lighthouse Attention menggunakan pendekatan seleksi kasar terlebih dahulu kemudian perhitungan detail. Ia akan dengan cepat meninjau ringkasan teks yang dikompres di berbagai tingkat, menilai dan memilih bagian inti untuk dirangkai menjadi teks pendek, lalu langsung diserahkan ke operator efisien FlashAttention yang sudah ada untuk diproses. Karena logika penyaringan ini sepenuhnya dipisahkan dari kernel, pengembang langsung menghemat kerumitan menulis kode dasar, dan tidak perlu menambah tujuan pelatihan tambahan. Solusi percepatan yang menggunakan pendekatan serupa sebelumnya sering kali memiliki efek samping, di mana model terbiasa membaca secara lompat-lompat dan sangat rentan kehilangan kemampuan membaca secara detail per kata. Untuk menghindari jebakan ini, tim pengembang membiarkan model menjalankan sebagian besar proses dalam mode percepatan, dan hanya di akhir pelatihan beralih sebentar ke perhitungan perhatian penuh tradisional untuk penyesuaian. Dalam pengujian pada model dengan 530 juta parameter dan data pelatihan sebanyak 50 miliar token, model yang dilatih dengan cara ini tidak hanya secara signifikan mengurangi waktu, tetapi juga secara keseluruhan menyamai bahkan melampaui performa versi baseline yang dilatih dengan metode tradisional. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

7 Suka

Hadiah
7
9
2
Bagikan

Komentar

Tambahkan komentar

PartiallyMeltedIceCream

· 5jam yang lalu

17 kali percepatan mungkin agak berlebihan, tetapi 98K hanya 1,4-1,7 kali, tampaknya semakin panjang waktu, manfaatnya semakin jelas

Lihat AsliBalas0

ACalmnessWithAHintOfPomelo

· 6jam yang lalu

Ringkasan berlapis-lapis mempersingkat teks pendek lalu membuang FlashAttention, trik teknik ini sangat hebat

Lihat AsliBalas0

GateUser-8ca669fd

· 6jam yang lalu

Lomba konteks panjang memasuki tahap optimisasi rekayasa, lebih menarik daripada parameter tumpukan

Lihat AsliBalas0

TidalShell

· 6jam yang lalu

Pencapaian baseline tradisional yang terlampaui agak mengejutkan, mengira percepatan pasti akan mengorbankan kualitas

Lihat AsliBalas0

GateUser-318a7dc8

· 6jam yang lalu

Dengan 5,3 miliar parameter, verifikasi bisa dilakukan, tim kecil juga bisa mengikuti.

Lihat AsliBalas0

GateUser-d6fb8ff1

· 6jam yang lalu

Tunggu kode dirilis untuk menguji berapa banyak K yang bisa ditanggung oleh 4090 saya

Lihat AsliBalas0

Glass-HeartMarketMaker

· 6jam yang lalu

Menghilangkan tujuan pelatihan tambahan sangat penting, jika tidak, meskipun open source, tidak ada yang mampu melatihnya

Lihat AsliBalas0

OrderbookOtter

· 6jam yang lalu

Nama Lighthouse bagus, pertama menerangi poin utama lalu melihat lebih detail

Lihat AsliBalas0

TokenTinkerTao

· 6jam yang lalu

B200 kartu tunggal 512K, ke depannya biaya menjalankan dokumen panjang RAG secara pribadi akan berkurang

Lihat AsliBalas0

Lihat Lebih Banyak

Topik Trending
Lihat Lebih Banyak
#
WinGoldBarsWithGrowthPoints
1.25M Popularitas
#
WTICrudeFallsBelow90Dollars
1.21M Popularitas
#
IsraelStrikesIranBTCPlunges
51.65K Popularitas
#
StockTradingChallengeUpTo17000U
212.21K Popularitas
#
USIranNegotiationGame
9.36M Popularitas

Disematkan

peta situs

Nous sumber terbuka Lighthouse Attention: satu B200 jalankan 512K percepatan 17 kali

Topik Trending

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Disematkan