Nous Research випустила Lighthouse Attention, прискорення попереднього навчання довгих послідовностей у 1.4-1.7 разів

AIMPACT повідомлення, 17 травня (UTC+8), Nous Research запустила метод Lighthouse Attention, який за допомогою вибіркового ієрархічного механізму уваги вирішує проблему квадратичного зростання обчислювальних витрат уваги при довгому попередньому навчанні послідовностей. Цей метод виконує симетричне пулінг Query, Key, Value, а логіка вибору розміщується поза ядром уваги, що дозволяє повторно використовувати ядро FlashAttention, і застосовує двоступеневу стратегію навчання. За результатами тестування на NVIDIA B200, при довжині контексту близько 512K швидкість прямого проходження зросла в 21 раз, а сумарна швидкість прямого і зворотного проходження — у 17,3 рази, перша стадія досягла пропускної здатності 126 000 токенів/с/ГПУ (проти 46 000 у щільного SDPA), а кінцева прискорення склало від 1,40× до 1,69×, при цьому зберігаючи або знижуючи тренувальну втрату. Перевірка на моделі стилю Llama-3 з 530M параметрів показала, що три групи Lighthouse дають кінцеву втрату (0,698–0,71), яка краще за базовий щільний SDPA (0,7237), економлячи від 22,5 до 27 годин тренування. Стаття arXiv:2605.06554.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено