Nous Research випустила Lighthouse Attention, прискорення попереднього навчання довгих послідовностей у 1.4-1.7 рази

AIMPACT повідомлення, 17 травня (UTC+8), Nous Research запустила метод Lighthouse Attention, який за допомогою вибіркового ієрархічного механізму уваги вирішує проблему квадратичного зростання обчислювальних витрат уваги при довгому попередньому навчанні послідовностей. Цей метод виконує симетричне пулінг Query, Key, Value, а логіка вибору розміщується поза ядром уваги, що дозволяє повторно використовувати ядро FlashAttention, і застосовує двоступеневу стратегію навчання. За результатами тестування на NVIDIA B200, при довжині контексту близько 512K швидкість прямого проходження збільшилася в 21 раз, а сумарна швидкість прямого і зворотного проходження — у 17,3 рази, перша стадія досягла пропускної здатності 126 000 токенів/с/ГПУ (проти 46 000 у щільного SDPA), а кінцева прискорення склала від 1,40× до 1,69×, при цьому зберігаючи або знижуючи втрати під час тренування. Перевірка на моделі стилю Llama-3 з 530M параметрів показала, що три групи Lighthouse дають кінцеві втрати (0,698-0,71), які краще за базовий щільний SDPA (0,7237), економлячи від 22,5 до 27 годин тренувального часу. Стаття arXiv:2605.06554.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено