Nous Research merilis Lighthouse Attention, percepatan pra-pelatihan urutan panjang sebesar 1.4-1.7 kali

AIMPACT Pesan, 17 Mei (UTC+8), Nous Research meluncurkan metode Lighthouse Attention, yang mengatasi masalah pertumbuhan kuadrat biaya perhitungan perhatian dalam pelatihan pra-pelatihan urutan panjang melalui mekanisme perhatian tingkat selektif. Metode ini melakukan pooling simetris pada Query, Key, dan Value, dengan logika seleksi ditempatkan di luar inti perhatian yang dapat digunakan kembali oleh inti FlashAttention, dan mengadopsi strategi pelatihan dua tahap. Pengujian di NVIDIA B200 menunjukkan percepatan 21 kali lipat dalam forward propagation pada panjang konteks sekitar 512K, percepatan gabungan forward + backward sebesar 17,3 kali, dengan throughput tahap pertama mencapai 126.000 token/detik/GPU (dibandingkan dengan 46.000 pada SDPA padat), percepatan end-to-end mencapai 1,40× hingga 1,69×, sambil mempertahankan atau bahkan menurunkan loss pelatihan. Pengujian pada model gaya Llama-3 dengan 530 juta parameter menunjukkan bahwa tiga set Lighthouse menghasilkan loss akhir (0,698-0,71) yang lebih baik daripada baseline SDPA padat yang dilatih dari awal (0,7237), menghemat waktu pelatihan sebesar 22,5-27 jam. Makalah arXiv:2605.06554.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan